中文分词技术

最新推荐文章于 2024-06-29 12:26:50 发布

张Q

最新推荐文章于 2024-06-29 12:26:50 发布

阅读量1.2k

点赞数 2

文章标签：算法 java 机器学习深度学习自然语言处理

本文链接：https://blog.csdn.net/linxi172/article/details/108679941

版权

本文详细介绍了中文分词技术，包括基于词典、统计、规则、字标注等方法，如最大正向匹配法、邻近匹配法、双向最大匹配法等，并通过实例分析了各方法的优缺点。

摘要由CSDN通过智能技术生成

中文分词技术(Chinese Word Segmentation) 指将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规则重新组合成词序列的过程

目前中文分词算法有以下5类：

在业务中，可以使用多种算法进行比较选择，其中比较选择的原则有以下几点：

其基本原理是按照一定的步长对文档取词，把结果和词典进行匹配，匹配成功则分词成功，否则不予切分。这种方法实现简单，实用性强，最大的缺点就是识别的成功率极大程度受限于词库的完整度

取词的规则和算法有许多，如：

其原理是以词库的最大长度为初始长度，窗口为1，从左到右对字符串进行扫描匹配，匹配不成功则减小窗口
其步骤是：

以“研究生命的起源”为例，假定词典中的词包含有：{研究、研究生、生命、命、的、起源}，切分步骤如下：

研究生  #第一个词匹配成功
命的起
命的
命      #第二个词匹配成功
的起源
的起
的      #第三个词匹配成功
起源    #第四个词匹配成功

MM在每次匹配过程中都要进行一次二分搜索，算法复杂度太高
NM则是在取到词典中匹配的第一个词后，往词后拼接下一个字，拼接后的新词在从词典中寻

关注