自然语言处理--sklearn和 nltk停用词表比较

最新推荐文章于 2024-08-26 17:15:01 发布

糯米君_

最新推荐文章于 2024-08-26 17:15:01 发布

阅读量1.2k

点赞数 1

分类专栏：自然语言处理文章标签： python 机器学习自然语言处理 nltk

本文链接：https://blog.csdn.net/fgg1234567890/article/details/111464199

版权

自然语言处理专栏收录该内容

59 篇文章

订阅专栏

根据想忽略的自然语言信息的多少，可以为流水线使用多个停用词表的并集或交集。现给出 sklearn和 nltk之间停用词的比较情况。

from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS as sklearn_stop_words
import nltk

stop_words = nltk.corpus.stopwords.words('english')
print(len(sklearn_stop_words))
print(len(stop_words) )

# NLTK停用词表中有60个词不包含在更大的 sklearn 停用词表中
print(len(set(stop_words).union(sklearn_stop_words)) )
# NLTK 和 sklearn 共同的停用词不到总数的1/3（在378 个停用词中有119 个相同）
print(len(set(stop_words).intersection(sklearn_stop_words)))