python基础编程：python中文分词教程之前向最大正向匹配算法详解

最新推荐文章于 2024-07-17 15:15:16 发布

程序员吉塔

最新推荐文章于 2024-07-17 15:15:16 发布

阅读量3.1k

点赞数 2

分类专栏： python基础教程文章标签：编程语言 python

本文链接：https://blog.csdn.net/haoxun08/article/details/104930710

版权

本文介绍了Python中中文分词的基础——前向最大正向匹配算法，通过实例解释了该算法的工作原理，并探讨了选择Python进行分词的原因。此外，还分享了一个简单的Python分词脚本的实现，以及提供了进一步学习和优化分词技术的资源。

摘要由CSDN通过智能技术生成

中文分词是中文文本处理的一个基础性工作，然而长久以来，在Python编程领域，一直缺少高准确率、高效率的分词组件。下面这篇文章主要给大家介绍了关于python中文分词教程之前向最大正向匹配算法的相关资料，需要的朋友可以参考下。
前言

大家都知道，英文的分词由于单词间是以空格进行分隔的，所以分词要相对的容易些，而中文就不同了，中文中一个句子的分隔就是以字为单位的了，而所谓的正向最大匹配和逆向最大匹配便是一种分词匹配的方法，这里以词典匹配说明。

最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法，分为正向和逆向，原理都是一样的。

正向最大匹配算法，故名思意，从左向右扫描寻找词的最大匹配。

首先我们可以规定一个词的最大长度，每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配，如果没有找到，就缩短长度继续寻找，直到找到或者成为单字。

下面话不多说了，来一起看看详细的介绍吧。

实例：

S1=“计算语言学课程是三个课时” ,设定最大词长MaxLen = 5 ,S2= " "

字典中含有三个词：[计算语言学]、[课程]、[课时]

（1）S2=""；S1不为空，从S1左边取出候选子串W="计算语言学"；

（2）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ ”， 并将W从S1中去掉，此时S1="课程是三个课时"；

（3）S1不为空，于是从S1左边取出候选子串W="课程是三个"；

（4）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是三"；

（5）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是"；

（6）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程"

（7）查词表，W在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ ”，并 将W从S1中去掉，此时S1="是三个课时"；

（8）S1不为空，于是从S1左边取出候选子串W="是三个课时"；

（9）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个课"；

（10）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个"；

（11）查词表，W不在词表中，将W最右边一个字去掉，