Python-中文分词并去除停用词仅保留汉字

对于一个由中文句子组成的列表,现在需要去除一切标点符号及数字,仅保留中文并将句子输出为列表。

sentence
0             巴林新增3例新冠肺炎确诊病例 累计确诊50例
1                        稳外资外贸 中国这样做
2             工信部:每天保障湖北地区防护服数量达25万件
3          广东建口岸联防联控机制 疫情严重地区入境者均需隔离
4                广州警方将全面压缩港澳商务签注办理时限
5               他们,身处脱贫攻坚一线,又是疫情防控先锋
6                南非卫生部:尚未考虑任何旅行或贸易禁令
7    工信部:为湖北提供约6.5万台(套)医疗设备 基本满足防疫需要
8              【抗疫在基层】战疫日记:防疫战中的武汉味道
9         中国经济战“疫”录:疫情下共享经济的“危”与“机” 
Name: 标题, dtype: object

首先加载re和jieba包。

import re
import jieba

接下来使用以下代码构造分词去停用词函数,其中chineseStopWords.txt为停用词库。这里的处理逻辑是:先导入停用词库形成列表,接下来对一个单独句子处理,先通过re.findall提取出句子中的每一个单独汉字,再用join函数把汉字连接成没有空格和符号的句子,再用jieba.lcut将句子分词形成列表,这里使用的是精准切割(cut_all = False),最后通过for循环,倒序检查列表的每一个元素,

  • 6
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值