关于python转义字符在正则匹配中的问题研究

最新推荐文章于 2024-07-20 17:02:24 发布

Hello_wshuo

最新推荐文章于 2024-07-20 17:02:24 发布

阅读量533

点赞数

本文链接：https://blog.csdn.net/chouzhou9701/article/details/109509695

版权

问题

首先看一个问题：

import re
text = r"\学"
print(text)
zz = r"\学"
result = re.findall(zz,text)
print(result)

输出：

\学
['学']

为什么没有匹配到反斜杠?

分析

转义：

首先要理解一个概念，python中内置的语法字符窜中有一些特殊的符号，那就是\,被成为转义字符。其中\ 可以与很多字符结合形成一些特殊符号，例如 \n 表示回车。

原始字符串：

print(r"\n")
print("\n")

输出：

\n

在字符串前面加r 即可将字符串解析为原始字符串，即所见即所得，\ 不再具有特殊含义。

回到之前的问题

import re
text = r"\学"
print(text)
zz = r"\学"
result = re.findall(zz,text)
print(result)

为什么匹配不到\,明明都是原始字符串，这里要就是正则的问题了

符号	意义
\w	匹配字母数字及下划线
\W	匹配非字母数字及下划线
\s	匹配任意空白字符，等价于 [ \t\n\r\f]。
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9].
\D	匹配任意非数字
\A	匹配字符串开始

因为在正则中 \ 也是特殊符号。
所以要真正的匹配\ 这个字符，正则匹配应该这样写r"\\",带入题目中就是zz = r"\\学"
而如果不使用原始字符串应该这样写：

import re
text = r"\学"
print(text)
zz = "\\\\学"
result = re.findall(zz,text)
print(result)

输出：

\学
['\\学']ve

已经匹配出来了，简单解释一下"\\\\学" 首先根据python内置的字符串解析，解析成实际的字符串表示的就是\\学（也就是原始字符串），再由于正则语法解析就能解析出真正要匹配的字符串是\学。
其实导致二次转义的这个问题的原因：
\ 在python中字符串中是特殊符号，并且在正则中也是特殊符号，所以才需要转义两次