python2, python3去除中英文空格

需求:去除字符串中所有的空格。

python3去除中英文空格

比较方便,首先要导入正则表达式包:

import re

然后就可以去除空格了,其中\u3000是中文空格的unicode码,\s则是正则表达式里面英文空格的表示,s其实就是spacebar的简写:

s1="ab  c"
re.sub(r'[\s\u3000]+','',s1) # 'abc'

这种去除并没有改变原始字符串的值,所以如果要使用结果,你需要保存到其它变量中。

python2的去除稍微复杂点,因为版本差异,python2,3的默认字符串编码是不同的。

  • python 2.x默认的字符编码、文件编码都是ASCII

  • python 3.x默认的字符编码是unicode,默认的文件编码是utf-8。

python2的国际化支持不如python3的方便。

新建字符串对比下:

python3:

>>> s1="ab  c"
>>> s1
'ab\u3000\u3000c'

相同的字符串在python2中则是这样:

>>> s1="ab   c"
>>> s1
'ab  \xe3\x80\x80c'

这样一来在python2中先把字符串转换成unicode再替换就比较完美了。

python2去除中英文空格

先使用decode转换成unicode字符串s2

import re
s2=s1.decode('utf8')
s2
# u'ab\u3000\u3000c'

再生成一个正则表达式,注意字符串前面是有个u的,表明后面的字符串是unicode编码:

pattern = re.compile(u'[\s\u3000]+')

可以去除了:

>>> re.sub(pattern,'',s2)
# u'abc'

运行环境

python 2.7.17及python3.7.6

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱玩的安哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值