中文分词算法基础

最新推荐文章于 2018-10-06 17:38:00 发布

gongpulin

最新推荐文章于 2018-10-06 17:38:00 发布

阅读量1.4k

点赞数

分类专栏：中文分词 java 算法与数据结构文章标签：算法

本文链接：https://blog.csdn.net/gongpulin/article/details/50447929

版权

java 同时被 3 个专栏收录

42 篇文章

订阅专栏

算法与数据结构

15 篇文章

订阅专栏

中文分词

1 篇文章

订阅专栏

本文介绍了中文分词算法的三大类：基于词典的字符串匹配、基于理解和基于统计的方法。详细讨论了正向最大匹配、逆向最大匹配等策略，并探讨了分词算法设计的基本原则和歧义识别、新词识别等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

中文分词算法现在一般分为三类：基于词典的字符串匹配，基于理解，基于统计的分词。
基于词典的字符串匹配分词：机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配；最大长度匹配和最小长度匹配；单纯分词和分词与标注过程相结合的一体化方法。所以常用的有：正向最大匹配，逆向最大匹配，最少切分法。。。实际应用中，将机械分词作为初分手段，利用语言信息提高切分准确率。优先识别具有明显特征的词，以这些词为断点，将原字符串分为较小字符串再机械匹配，以减少匹配错误率；或将分词与词类标注结合。
基于理解分词：分词同时进行句法语义分析等模拟人对句子的理解，包括分词子系统，句法语义系统，总控部分。总控部分协调下，分词字系统可以获得有关词，句子等的句法和语义信息对分词歧义进行判断。需要大量的语言知识信息。
基于统计分词：相邻的字同时出现的次数越多，越有可能构成一个词语，对语料中的字组频度进行统计，不需要切词字典，但错误率很高。可以考虑：使用基本词典进行关键词分词，使用统计方法识别新词组，两者结合。
语义理解中文分词：解决一词多义问题，为用户建立个性化数据库。
中文分词存在问题：计算机与人对歧义的定义无法统一；字典中未收录的词识别率低。
分词系统判断标准（待解决问题）：歧义识别，新词（未登录词）识别
分词算法设计中的几个基本原则：
1、颗粒度越大越好：用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如：“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好（当然前提是所使用的词典中有这个词）
2、切分结果中非词典词越少越好，单字字典词数越少越好，这里的“非词典词”就是不包含在词典中的单字，而“单字字典词”指的是可以独立运用的单字，如“的”、“了”、“和”、“你”、“我”、“他”。例如：“技术和服务”，可以分为“技术和服务”以及“技术和服务”，但“务”字无法独立成词（即词典中没有），但“和”字可以单独成词（词典中要包含），因此“技术和服务”有1个非词典词，而“技术和服务”有0个非词典词，因此选用后者。
3、总体词数越少越好，在相同字数的情况下，总词数越少，说明语义单元越少，那么相对的单个语义单元的权重会越大，因此准确性会越高。
基于词典的字符串匹配分词算法
最大匹配法：最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描（为提升扫描效率，还可以跟据字数多少设计多个字典，然后根据字数分别从不同字典中进行扫描）。例如：词典中最长词为“中华人民共和国”共7个汉字，则最大匹配起始字数为7个汉字。然后逐字递减，在对应的词典中进行查找。
下面以“我们在野生动物园玩”详细说明一下这几种匹配方法：
1、正向最大匹配法：
正向即从前往后取词，从7->1，每次减一个字，直到词典命中或剩下1个单字。
第1次：“我们在野生动物”，扫描7字词典，无
第2次：“我们在野生动”，扫描6字词典，无
。。。。
第6次：“我们”，扫描2字词典，有
扫描中止，输出第1个词为“我们”，去除第1个词后开始第2轮扫描，即：
第2轮扫描：
第1次：“在野生动物园玩”，扫描7字词典，无
第2次：“在野生动物园”，扫描6字词典，无
。。。。
第6次：“在野”，扫描2字词典，有
扫描中止，输出第2个词为“在野”，去除第2个词后开始第3轮扫描，即：
第3轮扫描：
第1次：“生动物园玩”，扫描5字词典，无
第2次：“生动物园”，扫描4字词典，无
第3次：“生动物”，扫描3字词典，无
第4次：“生动”，扫描2字词典，有
扫描中止，输出第3个词为“生动”，第4轮扫描，即：
第4轮扫描：
第1次：“物园玩”，扫描3字词典，无
第2次：“物园”，扫描2字词典，无
第3次：“物”，扫描1字词典，无
扫描中止，输出第4个词为“物”，非字典词数加1，开始第5轮扫描，即：
第5轮扫描：
第1次：“园玩”，扫描2字词典，无
第2次：“园”，扫描1字词典，有
扫描中止，输出第5个词为“园”，单字字典词数加1，开始第6轮扫描，即：
第6轮扫描：
第1次：“玩”，扫描1字字典词，有
扫描中止，输出第6个词为“玩”，单字字典词数加1，整体扫描结束。
正向最大匹配法，最终切分结果为：“我们/在野/生动/物/园/玩”，其中，单字字典词为2，非词典词为1。
逆向最大匹配法：
逆向即从后往前取词，其他逻辑和正向相同。
双向最大匹配法：
正向最大匹配法和逆向最大匹配法，都有其局限性，我举得例子是正向最大匹配法局限性的例子，逆向也同样存在（如：长春药店，逆向切分为“长/春药店”），因此有人又提出了双向最大匹配法，双向最大匹配法。即，两种算法都切一遍，然后根据大颗粒度词越多越好，非词典词和单字词越少越好的原则，选取其中一种分词结果输出。
如：“我们在野生动物园玩”
正向最大匹配法，最终切分结果为：“我们/在野/生动/物/园/玩”，其中，两字词3个，单字字典词为2，非词典词为1。
逆向最大匹配法，最终切分结果为：“我们/在/野生动物园/玩”，其中，五字词1个，两字词1个，单字字典词为2，非词典词为0。
非字典词：正向(1)>逆向(0)（越少越好）
单字字典词：正向(2)=逆向(2)（越少越好）
总词数：正向(6)>逆向(4)（越少越好）
因此最终输出为逆向结果。