Python数据操作—词干与词形化

本文介绍了自然语言处理中的词干化和词形化概念。通过使用NLTK库中的Porter Stemming算法进行词干化,将单词链接到其词根。而词形化则利用WordNet词法数据库,将类似含义的词归一化。文章提供了一个下载并使用wordnet的简单教程。
摘要由CSDN通过智能技术生成

1、词干化
在自然语言处理领域,我们i经常会遇到两个或两个以上单词具有共同根源的情况。 例如,agreed, agreeing 和 agreeable这三个词具有相同的词根。 涉及任何这些词的搜索应该把它们当作是根词的同一个词。 因此将所有单词链接到它们的词根变得非常重要。在NLTK库中有一些方法来完成这个链接,并给出显示根词的输出。
以下程序使用Porter Stemming算法进行词干分析:

# 词干分析
import nltk
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()

word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"
# First Word tokenization
nltk_tokens = nltk.word_tokenize(word_data)
#Next find the roots of the word
for w in nltk_tokens:
       print(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值