python—获取字符串格式的序列的中文字符,判别和提取中文字符的方法

第一步,先把字符串转为Unicode编码:

file=str.decode('utf-8')#把utf-8的编码变成Unicode


第二步,利用正则表达式作为匹配匹配出中文(可以用来在中文文章中去除所有标点)


pattern = re.compile(u'[\u4e00-\u9fa5]+')

这句最重要,注意细节。

filterdata = re.findall(pattern, file)

这样filterdata就变了一个以非中文字符的字符分割的list。

例如:

comments1="#邢晓瑶的红包#好运说来就来!邢晓瑶 的红包中抽到了@微博电影 提供的“5元电影券”,靠谱又惊喜,快来嗨抢吧!邢晓瑶 的红包"
结果:
['邢晓瑶的红包', '好运说来就来', '邢晓瑶', '的红包中抽到了', '微博电影', '提供的', '元电影券', '靠谱又惊喜', '快来嗨抢吧', '邢晓瑶', '的红包']

---分割线---

a=[]
for i in filterdata:
    i=i.replace('动画表情','')
    i = i.replace('照片', '')
    i = i.replace('壁纸', '')
    a.append(i)

print(a)
cleaned_comments = ''.join(a)

如果想要把某些特定的字符串去掉,可以如上

如果想把列表变为字符串还可以如上。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值