停用词表的使用

停用词表的使用:


问题描述:

停用词表的使用,不能死板的从网上查找模板,一定要根据自己的需要去修改,不然会影响使用效果

停用词典的使用

需要读取进入文件,使其从文件变成一个个的词,比如下面:
s=open("data/Chinese_stop.txt",encoding='utf-8',errors="ignore")
chinese_stop={}
for word in s:
    word =word.strip()
    chinese_stop[word]=1
    
s.close()
调用的方法之一:
    for i in ci:
        if i not in chinese_stop.keys():

在 处理英文文本时,如果仅仅是简单的处理停用词,可以使用NLTK库中的停用词。调用如下:

#导入停用词
from nltk.corpus import stopwords
#读入 stopwords
stopwords_en=stopwords.words(fileids='english')+['.', ',', '``', "''", '?', '!', '--', ';', ':', '(', ')', "'"]

以上,就可以读取常用的英文停用词和其标点符号。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值