中文分词
emily2ly
这个作者很懒,什么都没留下…
展开
-
使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址)...
一、ICTCLAS的介绍 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),...2010-08-20 11:13:26 · 304 阅读 · 0 评论 -
使用ICTCLAS JAVA版(ictclas4j)过程中的错误及其解决
1.在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句if(wis != null)否则有时会报出越界错误。 2.在PosTagger.java里面的computePossibility()函数里要注意将对i的判断语句i < startPos + length 改为i < startPos + length ...2010-08-20 18:07:56 · 193 阅读 · 0 评论