中文分词技术——字符串匹配的方法

最新推荐文章于 2020-12-24 22:53:08 发布

不吃鱼的喵_sweet

最新推荐文章于 2020-12-24 22:53:08 发布

阅读量3.4k

点赞数 2

分类专栏： nlp 文章标签： nlp

本文链接：https://blog.csdn.net/baidu_18891025/article/details/90293940

版权

nlp 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

中文分词，即 Chinese Word Segmentation，即将一个汉字序列进行切分，得到一个个单独的词。

基于规则的分词方法

这种方法又叫作机械分词方法、基于字典的分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串，则匹配成功。该方法有三个要素，即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。

最大匹配法（MM）。基本思想是：假设自动分词词典中的最长词条所含汉字的个数为 i，则取被处理材料当前字符串序列中的前 i 个字符作为匹配字段，查找分词词典，若词典中有这样一个 i 字词，则匹配成功，匹配字段作为一个词被切分出来；若词典中找不到这样的一个 i 字词，则匹配失败，匹配字段去掉最后一个汉字，剩下的字符作为新的匹配字段，再进行匹配，如此进行下去，直到匹配成功为止。统计结果表明，该方法的错误率为 1/169。
逆向最大匹配法（RMM）。该方法的分词过程与 MM 法相同，不同的是从句子（或文章）末尾开始处理，每次匹配不成功时去掉的是前面的一个汉字。统计结果表明，该方法的错误率为 1/245。
正向最大匹配法（从左到右的方向）；

逆向最大匹配法（从右到左的方向）；

双向最大匹配（进行从左到右、从右到左两次扫描）
优点：速度快，都是O(n)时间复杂度，实现简单，效果尚可
缺点：就是对歧义和未登录词处理不好
案例：庖丁解牛分词器就是基于字符串匹配的分词。
歧义的例子很简单"长春市/长春/药店"、 "长春/市长/春药/店"
未登录词即词典中没有出现的词，当然也就处理不好
下面以一个例子来说明：要进行分词的字符串：“研究生命的起源”：

假定我们的字典中的相关内容如下:

研究

研究生

生命

命

的

起源

首先需要确定一个最大匹配长度。因为我们的字典里最长的词为“研究生”，长度是3，所有我们将最大匹配长度设置为3.

正向最大匹配过程:

研究生 #第一个词匹配成功

命的起

命的

命 #第二个词匹配成功，一个单字

的起源

的起

的 #第三个词匹配成功

起源 #第四个词匹配成功

那么正向最大匹配的结果就是

研究生命的起源

现在我们来看看逆向最大匹配的过程:

的起源

起源 #第一个词匹配成功

生命的

命的

的 #第二个词匹配成功

究生命

生命 #第三个词匹配成功

研究 #第四个词匹配成功

所以逆向最大匹配后的结果为

研究生命的起源

两种分词过程总结：

【正向匹配：从左到右，逐步去掉右部（底部）的字进行新一轮匹配，逆向匹配：从右到左，逐步去掉左部（底部）的字进行新一轮匹配】

因为中文比较复杂以及中文的特殊性，逆向最大匹配大多时候往往会比正向要准确。

分词算法设计中的几个基本原则：

1、颗粒度越大越好：用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如：“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好（当然前提是所使用的词典中有这个词）

2、切分结果中非词典词越少越好，单字词数越少越好，这里的“非词典词”就是不包含在词典中的单字，而“单字词”指的是可以独立运用的单字，如“的”、“了”、“和”、“你”、“我”、“他”。例如：“技术和服务”，可以分为“技术和服务”以及“技术和服务”，但“务”字无法独立成词（即词典中没有），但“和”字可以单独成词（词典中要包含），因此“技术和服务”有1个非词典词，而“技术和服务”有0个非词典词，因此选用后者。

3、总体词数越少越好，在相同字数的情况下，总词数越少，说明语义单元越少，那么相对的单个语义单元的权重会越大，因此准确性会越高。

3、双向最大匹配法：

正向最大匹配法和逆向最大匹配法，都有其局限性，我举得例子是正向最大匹配法局限性的例子，逆向也同样存在（如：长春药店，逆向切分为“长/春药店”），因此有人又提出了双向最大匹配法，双向最大匹配法。即，两种算法都切一遍，然后根据大颗粒度词越多越好，非词典词和单字词越少越好的原则，选取其中一种分词结果输出。

如：“我们在野生动物园玩”

正向最大匹配法，最终切分结果为：“我们/在野/生动/物/园/玩”，其中，两字词3个，单字字典词为2，非词典词为1。

逆向最大匹配法，最终切分结果为：“我们/在/野生动物园/玩”，其中，五字词1个，两字词1个，单字字典词为2，非词典词为0。

非字典词：正向(1)>逆向(0)（越少越好）

单字字典词：正向(2)=逆向(2)（越少越好）

总词数：正向(6)>逆向(4)（越少越好）

因此最终输出为逆向结果。

不吃鱼的喵_sweet

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
中文分词技术——字符串匹配的方法

中文分词，即 Chinese Word Segmentation，即将一个汉字序列进行切分，得到一个个单独的词。基于规则的分词方法这种方法又叫作机械分词方法、基于字典的分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串，则匹配成功。该方法有三个要素，即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描...
复制链接

扫一扫