NLP
LXsen__
这个作者很懒,什么都没留下…
展开
-
PMI(Pointwise Mutual Information)
https://blog.csdn.net/index20001/article/details/79079031转载 2019-03-11 11:46:32 · 3244 阅读 · 0 评论 -
词形还原(Lemmatization)
词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似。 简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同于词干提取(stemming),提取后的单词不一定会出现在单词中。比如,单词“cars”词形还原后的单词为“car”,单词“ate”词形还原后的单词为“eat”。 在Python的nltk模块...转载 2019-03-11 11:56:23 · 729 阅读 · 0 评论