分词
规则分词
前向最大匹配法
找到词典中最长词的长度I,将当前需要分词的字符串截取前I个
在字典中进行匹配,找到匹配成功。找不到匹配失败,将截取的前I个字符的最后一位过滤掉,继续匹配,直到全部匹配完成
字典为:[南京市长,长江大桥]
指定字符串: 南京市长江大桥
返回结果为: 南京市长, 江,大桥
很明显满足不了我们所需要的分词结果
后项最大匹配法
原理和正向的相同,只是从字符串尾部开始比较
字典为:[南京市长,长江大桥]
指定字符串: 南京市长江大桥
返回结果为: 南京市,长江大桥
相比正向的结果好了很多,但是中国语言的博大精深,许多问题并不能一一解决,就提出了下面的双向最大匹配法
双向最大匹配法
同时满足前向和后项匹配法,
前向:南京市长, 江,大桥
后向:南京市,长江大桥
选取次数比较少的第二种结果,如果次数相同,选取单个字数少的结果
统计分词
HMM模型
隐马尔科夫模型(HMM):将分词作为字在字串中的序列标注任务来完成的,每个字在构造中都有一个确定的构词位置
及B(词首),M(词中),E(词尾),S(单独成词)
中文/分词/是/文本处理/不可或缺/的/一步!
中/B 文/E 分/B 词/E ....等
理论是是如上,但是很可能出现BBB。BEM等输出,显然是不合理的
这里HMM做了理你各位一个假设:其次马尔科夫假设,每个输出仅仅与上一个输出有关 (公式就不写了,我也不记不住),可以排除类似BBB等不合理组合
CRF模型
是一种基于马尔科夫思想的统计模型,马尔科夫中很经典的假设就是仅仅与他前面的状态有关,显然有偏差,于是又提出了CRF,不仅与前面的有关,还与后边的有关
混合分词
结合规则分词和统计分词
结论
基于规则的分词通过给定的字典进行分词,当我们遇到新词的时候无法很好的进行分词
基于统计的分词可以较好的应对新词出现的特殊场景,不过太过于依赖语聊的质量
因此实践中多是采用两种方法的结合,及混合分词