《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.6 词形还原

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章,第2.6节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.6 词形还原

词形还原(lemmatization)是一种更条理化的方法,它涵盖了词根所有的文法和变化形式。词形还原操作会利用上下文语境和词性来确定相关单词的变化形式,并运用不同的标准化规则,根据词性来获取相关的词根(也叫lemma)。

>>>from nltk.stem import WordNetLemmatizer
>>>wlem = WordNetLemmatizer() 
>>>wlem.lemmatize("ate") 
eat

在这里,WordNetLemmatizer使用了wordnet,它会针对某个单词去搜索wordnet这个语义字典。另外,它还用到了变形分析,以便直切词根并搜索到特殊的词形(即这个单词的相关变化)。因此在我们的例子中,通过ate这个变量是有可能会得到eat这个单词的,而这是词干提取操作无法做到的事情。

现在你能解释词干提取与词性还原之间的区别了吗?
现在你能为自己的母语设计一个Porter词干提取器(基于规则)了吗?
为什么对于中文这样的语言来说,词干提取器是很难实现的?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值