一、分词算法
1、词典分词--字符串匹配分词
该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。
链接:https://www.jianshu.com/p/7377f6d24e87
分词的难点:
1、分词标准的制定
2、歧义
1)组合型歧义——比如“中华人民共和国”,粗粒度的分词就是“中华人民共和国”,细粒度的分词可能是“中华/人民/共和国”
2)交集型歧义——在“郑州天和服装厂”中,“天和”是厂名,是一个专有词,“和服”也是一个词,它们共用了“和”字。
3)真歧义——本身的语法和语义都没有问题, 即便采用人工切分也会产生同样的歧义
一般在搜索引擎中,构建索引时和查询时会使用不同的分词算法。常用的方案是,在索引的时候使用细粒度的分词以保证召回,在查询的时候使用粗粒度的分词以保证精度。
3、新词
也称未被词典收录的词,该问题的解决依赖于人们对分词技术和汉语语言结构的进一步认识。