一、正向最大匹配FMM
从左到右将待分词文本中的最多个连续字符与词表匹配,如果匹配上,则切分出一个词。
二、逆向最大匹配
从右到左将待分词文本中的最多个连续字符与词表匹配,如果匹配上,则切分出一个词。
三、双向最大匹配
正向最大匹配算法和逆向最大匹配算法.如果两个算法得到相同的分词结果,那就认为是切分成功,否则,就出现了歧义现象或者是未登录词问题。
四、N-gram双向最大匹配
基于字符串的分词方法中的正向最大匹配算法和逆向最大匹配算法。然后对两个方向匹配得出的序列结果中不同的部分运用Bi-gram计算得出较大概率的部分。最后拼接得到最佳词序列。
五、HMM分词
序列标注
B:起始词
M:中间词
E:结束词
S:单独的词
比如:
['现在', '县', '财政', '的', '近', '90%', '来自', '乡镇企业', ',']
['B', 'E', 'S', 'B', 'E', 'S', 'S', 'B', 'M', 'E', 'B', 'E', 'B', 'M', 'M', 'E', 'S']