python之去除文本标点符号

        今天做一个文本相似度的小任务,利用python的“Levenshtein”包可对比两个文本的相似度。为了消除标点符号的影响,需要去除标点,python的string模块下的punctuation包含所有的英文标点符号。所以用replace()一下就可以去除:

Example 1:
import string
s = 'today is friday, so happy..!!!'
for c in string.punctuation:
    s = s.replace(c,'')
print(s)
Result:
today is friday so happy

        string.punctuation中的标点符号只有英文,如果是中文文本,可以调用zhon包的zhon.hanzi.punctuation函数即可得到中文的标点符号集合。

Example 2:
from zhon.hanzi import punctuation
a = '今天周五,下班了,好开心呀!!'
for i in punctuation:
    a = a.replace(i,'')
print(a)
Result:
今天周五下班了好开心呀

<( ̄︶ ̄)↗[GO!]

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值