Python数据操作—词干与词形化

最新推荐文章于 2024-02-26 20:51:26 发布

开开_王子

最新推荐文章于 2024-02-26 20:51:26 发布

阅读量3.6k

点赞数 2

分类专栏： Python 数据挖掘与机器学习

本文链接：https://blog.csdn.net/kan2281123066/article/details/81458641

版权

本文介绍了自然语言处理中的词干化和词形化概念。通过使用NLTK库中的Porter Stemming算法进行词干化，将单词链接到其词根。而词形化则利用WordNet词法数据库，将类似含义的词归一化。文章提供了一个下载并使用wordnet的简单教程。

摘要由CSDN通过智能技术生成

1、词干化
在自然语言处理领域，我们i经常会遇到两个或两个以上单词具有共同根源的情况。例如，agreed, agreeing 和 agreeable这三个词具有相同的词根。涉及任何这些词的搜索应该把它们当作是根词的同一个词。因此将所有单词链接到它们的词根变得非常重要。在NLTK库中有一些方法来完成这个链接，并给出显示根词的输出。
以下程序使用Porter Stemming算法进行词干分析：

# 词干分析
import nltk
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()

word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"
# First Word tokenization
nltk_tokens = nltk.word_tokenize(word_data)
#Next find the roots of the word
for w in nltk_tokens:
       print(