![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Nlp
tianya111cy
这个作者很懒,什么都没留下…
展开
-
中文分词评价指标
准确率(Precision)和召回率(Recall)Precision = 正确切分出的词的数目/切分出的词的总数Recall = 正确切分出的词的数目/应切分出的词的总数 综合性能指标F-measureFβ = (β2 + 1)*Precision*Recall/(β2*Precision + Recall)β为权重因子,如果将准确率和召回率同等看待,取β = 1,就得到...原创 2011-11-15 12:44:31 · 1366 阅读 · 0 评论 -
未登录词
分类1.复合词和派生词2.略缩语(如“世博会(世界博览会)”、“奥运会(奥林匹克运动会)”)3.专有名词(也称命名实体,子分类:人名、地名和机构名)4.数字类复合词(数字和汉字构成,如日期、地址、时间等) 识别1.新涌现的通用词或专业术语等可预期的未登录词2.专有名词等不可预期的未登录词...原创 2011-11-15 14:56:17 · 361 阅读 · 0 评论 -
分词算法和模型
维特比算法(Viterbi)隐马尔可夫模型(Hidden Markov model, HMM)最大熵模型(Maximum Entropy, ME)支持向量机(SVM)线性链条件随机场模型(CRF)最大间隔马尔可夫网络模型遗传算法N-gram模型有监督机器学习 HMM属于产生式模型(基于联合概率分布),CRF和ME属于判别式模型(基于条件概率) ...原创 2011-11-15 15:56:24 · 247 阅读 · 0 评论 -
中文信息处理
中文分词词性标注命名实体识别句法分析原创 2011-11-15 15:59:19 · 160 阅读 · 0 评论 -
关键词和关键句排名算法
关键词和关键句排名算法:加权无向图 the application of graphbased ranking algorithms to natural language texts consists of the following main steps:1. Identify text units that best define the task at hand, and ad...原创 2011-12-02 14:11:39 · 172 阅读 · 0 评论 -
TF-IDF
http://baike.baidu.com/view/1228847.htm原创 2012-02-29 10:11:27 · 60 阅读 · 0 评论 -
ictclas4j bug总结
1.漏字Eg: 林心如主演的倾世王妃分词结果为:林如/nr 主演/v 的/u 倾/v 世/ng 王妃/n漏掉了“心”字解决办法:将PosTagger.java中personRecognize方法里的如下if语句直接注释掉if (sn.getPos() < 4 && unknownDict.getFreq(sn.getWord(), sn.ge...原创 2012-09-05 09:55:13 · 98 阅读 · 0 评论 -
Data Mining Algorithms
K-means原创 2012-09-17 11:20:56 · 171 阅读 · 0 评论