自然语言处理--nltk库WordNetLemmatizer词形归并

对于任何一个 NLP 流水线,如果想要对相同语义词根的不同拼写形式都做出统一回复的话,那么词形归并工具就很有用,它会减少必须要回复的词的数目,即语言模型的维度。利用词形归并工具,可以让模型更一般化,当然也可能带来模型精确率的降低,因为它会对同一词根的不同拼写形式一视同仁。

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
# 默认其为名词
print(lemmatizer.lemmatize("better") )

# 如果需要得到更精确的词元,需要告诉 WordNetLemmatizer 你感兴趣的词性是什么。
print(lemmatizer.lemmatize("better", pos="a") )

print(lemmatizer.lemmatize("good", pos="a") )

print(lemmatizer.lemmatize("goods", pos="a") )

print(lemmatizer.lemmatize("goods", pos="n") )

print(lemmatizer.lemmatize("goodness", pos="n") )

print(lemmatizer.lemmatize("best", pos="a"))
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值