中文分词
![61769cb03f6a1dc82808751967f11c05.png](https://i-blog.csdnimg.cn/blog_migrate/3623f3677d76165261186d3012f4721d.jpeg)
就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。
三类分词算法:
1. 基于字符串匹配:
将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出一个词。
优点,速度快,都是O(n)时间复杂度,实现简单。
缺点,对歧义和未登录词处理不好。
此类型中常用的几种分词方法有:
- 1. 正向最大匹配法:假设词典中最大词条所含的汉字个数为n个,取待处理字符串的前n个字作为匹配字段。若词典中含有该词,则匹配成功,分出该词,然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配;如果没有匹配成功,则将这n个字组成的字段的最后一位剔除,用剩下的n一1个字组成的字段在词典中进行匹配,如此进行下去,直到切分成功为止。(链接:http://www.jianshu.com/p/e978053b0b95)
- 2. 逆向最大匹配法:与正向的区别在于如果匹配不成功则减去最前面的一个字。
- 3. 最少切分使每一句中切出的词数最少。