字符串预处理

string = re.sub(r"[^A-Za-z0-9(),!?’`]", " “, string) 除A-Za-z0-9(),!?’`外的字符,去除
string = re.sub(r’(.)\1+’, r’\1\1’, string) 匹配两个以上连续的字符,只保留两个连续的字符
string = re.sub(r”'s", " 's", string) 匹配 '跟一个空格字符,在’前加个空格
string = re.sub(r"'ve", " 've", string) 've 在’前加个空格
string = re.sub(r"n’t", " n’t", string) n’跟制表符,在n前加空格
string = re.sub(r"'re", " 're", string) 're 在’前加个空格
string = re.sub(r"'d", " 'd", string) 'd在’前加个空格
string = re.sub(r"'ll", " 'll", string) 'll在’前加个空格
string = re.sub(r",", " , “, string) ,前后各加空格
string = re.sub(r”!", " ! “, string) !前后 各加空格
string = re.sub(r”(", " ( “, string) (前后加空格
string = re.sub(r”)", " ) “, string) )前后加空格
string = re.sub(r”?", " ? “, string) ?前后 加空格
string = re.sub(r”\s{2,}", " ", string) 两个以上连续的空白符,删除

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值