python去停用词用nltk_使用NLTK删除停用词

最新推荐文章于 2023-04-07 17:14:52 发布

weixin_39924179

最新推荐文章于 2023-04-07 17:14:52 发布

阅读量189

点赞数

python去停用词用nltk

@ alvas的答案可以完成这项任务，但可以更快地完成 . 假设你有 documents ：一个字符串列表 .

from nltk.corpus import stopwords

from nltk.tokenize import wordpunct_tokenize

stop_words = set(stopwords.words('english'))

stop_words.update(['.', ',', '"', "'", '?', '!', ':', ';', '(', ')', '[', ']', '{', '}']) # remove it if you need punctuation

for doc in documents:

list_of_words = [i.lower() for i in wordpunct_tokenize(doc) if i.lower() not in stop_words]

请注意，由于您在这里搜索集合（不在列表中），理论上速度理论上会快 len(stop_words)/2 倍，如果您需要通过许多文档操作，这很重要 .

对于5000个大约300个单词的文档，我的例子为1.8秒，@ alvas为20秒 .

附：在大多数情况下，您需要将文本划分为单词以执行其他使用tf-idf的分类任务 . 所以最有可能的是使用stemmer也会更好：

from nltk.stem.porter import PorterStemmer

porter = PorterStemmer()

并在循环内使用 [porter.stem(i.lower()) for i in wordpunct_tokenize(doc) if i.lower() not in stop_words] .

weixin_39924179

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python去停用词用nltk_使用NLTK删除停用词

@ alvas的答案可以完成这项任务，但可以更快地完成 . 假设你有 documents ：一个字符串列表 .from nltk.corpus import stopwordsfrom nltk.tokenize import wordpunct_tokenizestop_words = set(stopwords.words('english'))stop_words.update(['.', ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。