为什么python的re使用正则式时需要用r字符串?

回答

re中字符串需要是正则式,因此其本身不能被python当作特殊字符处理,故用r使得re接收到完整的正则式字符串。

举例来说:

我们有这样一个字符串: 2020-05-21T04:10:23+08:00
我们希望将其转化为:2020-05-21 04:10:23
此时我们需要分别提取年月日和时分秒两个部分
故查询的正则式可以是 “(\d{4}-\d{2}-\d{2})T(\d{2}:\d{2}:\d{2}).*”
并且用 \1和\2保留年月日和时分秒
那么用re.sub则可以写作这样

time = " 2020-05-21T04:10:23+08:00" time =
re.sub("(\d{4}-\d{2}-\d{2})T(\d{2}:\d{2}:\d{2}).*", “\1 \2”, time)
print(time)

out: ‘\x01 \x02’

此时,我们并没有将原本的时间替换成括号里部分,而是替换成了1和2的16进制
也就是说,"“没有被认作正则式的一部分,而是被python认作了转义符,将1和2转义了
此时re接收到的就不是\1 \2 而是 \x01 \x02了
故而此时需要将”\1 \2"替换为r"\1 \2"

time = " 2020-05-21T04:10:23+08:00" time =
re.sub("(\d{4}-\d{2}-\d{2})T(\d{2}:\d{2}:\d{2}).*", r"\1 \2", time)
print(time)

out: ‘2020-05-21 04:10:23’

注意:

在上面的例子中,查询正则式中并不包括python的特殊字符,\d对于python来说是没有意义的,但是如果换成了\n, %等字符,则也会被python识别,此时查询正则式也需要加上“r”。事实上,最好的习惯还是应该在所有的正则式前面都加上r。

在检测代码中的正则式时,我习惯先在notepad++中先进行测试,如果在notepad++中正则式通过了测试,但在代码中却不能正确返回,则应该考虑这些字符串中是否包含编程语言本身的特殊字符

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值