1:中文分词简介
2:Lucence的中文分词
3:庖丁分词简介
4:IK中文分词简介
一:中文分词简介
1:分词算法分类
-----基于字符串匹配的中文分词方法
eg:句子:我来自沈阳航空航天大学
词典:沈阳 航空 航天 大学 沈阳航空航天大学
匹配字段:
匹配结果:
选取词典中最长字段作为分词起始的最长步伐,可知最长为8
首先在句子中以“我”为起点,数八个字“我来自沈阳航空航”在词典中没有匹配到,然后步长减一,为7
然后数七个字“我来自沈阳航空”同样在字典中没有匹配到,步长减一,为6
........
步长为1时依然没有匹配到,但是是单音节词了,所以存放在匹配结果中
以此执行,下一次从“是”开始......
所以最终的匹配结果是:我 来 自 沈阳航空航天大学 沈阳 航空 航天 大学
------基于理解的分词方法
类似于人工智能分词了,能够自动识别词语的意思,进行分词
------基于统计的分词方法
2:两大难题
----歧义识别
----新词识别
3:应用
----搜索引擎
----自然语言处理
二:Lucence的中文分词
1:基于字符串匹配的分词
----paoding