Python自然语言处理之词干,词形与最大匹配算法代码详解

最新推荐文章于 2022-05-09 09:35:36 发布

adrrry

最新推荐文章于 2022-05-09 09:35:36 发布

阅读量903

点赞数

分类专栏： python 文章标签： python 编程语言

本文链接：https://blog.csdn.net/adrrry/article/details/105567353

版权

本文介绍了Python中词干提取（stemming）、词形还原（lemmatization）的概念，分别用PorterStemmer、LancasterStemmer、SnowballStemmer举例，并探讨了二者之间的联系和区别。同时，讲解了最大匹配（MaxMatch）算法在中文分词中的应用，展示了如何通过最大匹配策略找到合适的分词结果。文章以英文示例演示了MaxMatch算法的实现，并鼓励读者深入学习和改进算法。

摘要由CSDN通过智能技术生成

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府

本文主要对词干提取及词形还原以及最大匹配算法进行了介绍和代码示例，Python实现，下面我们一起看看具体内容。

自然语言处理中一个很重要的操作就是所谓的stemming和lemmatization，二者非常类似。它们是词形规范化的两类重要方式，都能够达到有效归并词形的目的，二者既有联系也有区别。

1、词干提取（stemming）

定义：Stemmingistheprocessforreducinginflected(orsometimesderived)wordstotheirstem,baseorrootform—generallyawrittenwordform.

解释一下，Stemming是抽取词的词干或词根形式（不一定能够表达完整语义）。

NLTK中提供了三种最常用的词干提取器接口，即Porterstemmer,LancasterStemmer和SnowballStemmer。

PorterStemmer基于Porter词干提取算法，来看例子

>>> from nltk.stem.porter import PorterStemmer 
>>> porter_stemmer = PorterStemmer() 
>>> porter_stemmer.stem(‘maximum') 
u'maximum'
>>> porter_stemmer.stem(‘presumably') 
u'presum'
>>> porter_stemmer.stem(‘multiply') 
u'multipli'
>>> porter_stemmer.stem(‘provision') 
u'provis'
>>> porter_stemmer.stem(‘owed') 
u'owe'

Lancaster Stemmer 基于Lancaster 词干提取算法，来看例子

>>> from nltk.stem.lancaster import LancasterStemmer 
>>> lancaster_stemmer = LancasterStemmer() 
>>> lancaster_stemmer.stem(‘maximum')

最低0.47元/天解锁文章

adrrry

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python自然语言处理之词干,词形与最大匹配算法代码详解

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府本文主要对词干提取及词形还原以及最大匹配算法进行了介绍和代码示例，Python实现，下面我们一起看看具体内容。自然语言处理中一个很重要的操作就是所谓的stemming和lemmatization，二者非常类似。它们是词形规范化的两类重要方式，都能够达到有效归并词形的目的，二者既有联系也有区别。1、词干提取（stemming）...
复制链接

扫一扫