为什么python的re使用正则式时需要用r字符串?

最新推荐文章于 2023-07-03 18:20:59 发布

qq_42690174

最新推荐文章于 2023-07-03 18:20:59 发布

阅读量876

点赞数 2

本文链接：https://blog.csdn.net/qq_42690174/article/details/111992373

版权

回答

re中字符串需要是正则式，因此其本身不能被python当作特殊字符处理，故用r使得re接收到完整的正则式字符串。

举例来说：

我们有这样一个字符串： 2020-05-21T04:10:23+08:00
我们希望将其转化为：2020-05-21 04:10:23
此时我们需要分别提取年月日和时分秒两个部分
故查询的正则式可以是 “(\d{4}-\d{2}-\d{2})T(\d{2}:\d{2}:\d{2}).*”
并且用 \1和\2保留年月日和时分秒
那么用re.sub则可以写作这样

time = " 2020-05-21T04:10:23+08:00" time =
re.sub("(\d{4}-\d{2}-\d{2})T(\d{2}:\d{2}:\d{2}).*", “\1 \2”, time)
print(time)

out: ‘\x01 \x02’

此时，我们并没有将原本的时间替换成括号里部分，而是替换成了1和2的16进制
也就是说，"“没有被认作正则式的一部分，而是被python认作了转义符，将1和2转义了
此时re接收到的就不是\1 \2 而是 \x01 \x02了
故而此时需要将”\1 \2"替换为r"\1 \2"

time = " 2020-05-21T04:10:23+08:00" time =
re.sub("(\d{4}-\d{2}-\d{2})T(\d{2}:\d{2}:\d{2}).*", r"\1 \2", time)
print(time)

out: ‘2020-05-21 04:10:23’

注意:

在上面的例子中，查询正则式中并不包括python的特殊字符，\d对于python来说是没有意义的，但是如果换成了\n, %等字符，则也会被python识别，此时查询正则式也需要加上“r”。事实上，最好的习惯还是应该在所有的正则式前面都加上r。

在检测代码中的正则式时，我习惯先在notepad++中先进行测试，如果在notepad++中正则式通过了测试，但在代码中却不能正确返回，则应该考虑这些字符串中是否包含编程语言本身的特殊字符

qq_42690174

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
为什么python的re使用正则式时需要用r字符串?

回答re中字符串需要是正则式，因此其本身不能被python当作特殊字符处理，故用r使得re接收到完整的正则式字符串。举例来说：我们有这样一个字符串： 2020-05-21T04:10:23+08:00我们希望将其转化为：2020-05-21 04:10:23此时我们需要分别提取年月日和时分秒两个部分故查询的正则式可以是 “(\d{4}-\d{2}-\d{2})T(\d{2}:\d{2}:\d{2}).*”并且用 \1和\2保留年月日和时分秒那么用re.sub则可以写作这样time = "
复制链接

扫一扫