清洗英文脏数据,超级分隔符

import re
def strip(text, chars=None):
    """去除首尾的字符
    :type text: string
    :type chars: string
    :rtype: string
    """
    if chars is None:
        reg = re.compile('^ *| *$')
    else:
        reg = re.compile(r'^[' + chars + ']*|[' + chars + ']*$')
    return reg.sub('', text) #把text里符合reg格式的字符串替换成'',也即去掉该字符串
#r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""
text = "zhong xin gssang! haha...li{li},ha.yooook'''sss-s(good)&ls\"d\" \lixingdd_ddd#\ll#1+2-3/4*8=5@@7$1%2:3;4<1>2?3^7`0[11]0~9dd\n00\n\n"
print(re.split('!| |\.|{|}|,|-|!|\(|\)|&|\"|_|\\\\|#|\+|\*|/|=|@|\$|%|:|;|<|>|\?|\^|\[|\]|\`|\~|\\n', text))
print(re.sub('!| |\.|{|}|,|-|!|\(|\)|&|\"|_|\\\\|#|\+|\*|/|=|@|\$|%|:|;|<|>|\?|\^|\[|\]|\`|\~|\\n', ' ', text))

最后输出

['zhong', 'xin', 'gssang', '', 'haha', '', '', 'li', 'li', '', 'ha', "yooook'''sss", 's', 'good', '', 'ls', 'd', '', '', 'lixingdd', 'ddd', '', 'll', '1', '2', '3', '4', '8', '5', '', '7', '1', '2', '3', '4', '1', '2', '3', '7', '0', '11', '0', '9dd', '00', '', '']
zhong xin gssang  haha   li li  ha yooook'''sss s good  ls d   lixingdd ddd  ll 1 2 3 4 8 5  7 1 2 3 4 1 2 3 7 0 11 0 9dd 00 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值