中科院中文分词系统
surpaimb
这个作者很懒,什么都没留下…
展开
-
中科院中文分词系统--字典结构
中科院中文分词系统--字典结构中科院中文分词系统(以下称:分词系统)一个很关键的部分就是他的字典,搞清楚字典的结构对我们进一步研究分词系统有很大的帮助。在这套分词系统中,有两种结构的字典,一种是保存常用词的词典,一种是保存字之间上下文关系的词典。这节分析的是第一种。 这节分析的是第二种原创 2006-06-20 09:37:00 · 4146 阅读 · 1 评论 -
中科院中文分词系统--上下文关系字典结构
中科院中文分词系统--上下文关系字典结构中科院中文分词系统(以下称:分词系统)一个很关键的部分就是他的字典,搞清楚字典的结构对我们进一步研究分词系统有很大的帮助。在这套分词系统中,有两种结构的字典,一种是保存常用词的词典,一种是保存字之间上下文关系的词典。这节分析的是第二种。原创 2006-07-15 12:44:00 · 2463 阅读 · 0 评论 -
最优的N最短路径的初分结果选取方式(完善中)
在中科院中文分词系统ICTCLAS中采用的是N最短路径的词语初分方法,对实例“他说的确实在理最短路径有如下几条:长度都是5他/说/的/确实/在理 他/说/的确/实在/理他/说/的确/实/在理根据语料库(data/coreDict.dct ):“的”单独成词的频率为54477;“的确”成词的频率为27;“确”单独成词的频率为26;“确实”成词的频率为53(39+8+6=53)原创 2006-07-15 14:52:00 · 2056 阅读 · 0 评论