python文本分析--停用词表的使用

之前听说停用词表,没有上手使用过,真正操作的时候发现有很多东西没有学透彻。这里总结一下,去停用词的思想:在原始文本集中去掉不需要的词汇,字符。虽然有通用的停用词表,但是如果想提高后续的分词效果,还是自己建立停用表比较好。

建立停用词表,实际上就是在txt中,输入想要删除的词汇,每个词汇用空格隔开即可。可以换行。

下面是我自己操作的效果图,及代码。方便自己及大家查看。

# 停用词表 []   停用词的标准格式应该是一个词一行在txt中展示.如果一行中有多词汇,可以采用本文方法转换成标准格式
# 文本集 []
# 处理后文本本 []
stop = []
standard_stop = []
text = []
after_text = []
file_stop = r'D:\PycharmProjects\tufaci20190218\ceshi-stop-shupai.txt'  # 停用词表
file_text = r'D:\PycharmProjects\tufaci20190218\ceshi-word.txt'  # 要处理的文本集合
with open(file_stop,'r',encoding='utf-8-sig') as f :
    lines = f.readlines()  # lines是list类型
    for line in lines:
        lline  = line.strip()     # line 是str类型,strip 去掉\n换行符
        stop.append(lline)        # 将stop 是列表形式

# stop 的元素是一行一行的 句子,需要进行转化为一个词一行,即下面:
for i in range(0,len(stop)):
    for word in stop[i].split():
        standard_stop.append(word)
# print(standard_stop)

# 读取文本集,
with open(file_text,'r',encoding='utf-8-sig') as f :
    lines = f.readlines()
    print(lines)
    for line  in lines:
        # lline = line.strip()
        # print(lline)
        lline = line.split()
        # print(lline)
        for i in lline:
           if i not in  standard_stop:
               after_text.append(i)
print(after_text)

# 将结果保存在txt中
with open(r'D:\PycharmProjects\tufaci20190218\a-ceshi-jieguo.txt','w+')as f :
    for i in after_text:
        f.write(i)


 

  • 21
    点赞
  • 117
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值