笔记：正则表达式记录（四）--正则元字符和功能

最新推荐文章于 2022-08-16 12:00:49 发布

置顶海鸥软件

最新推荐文章于 2022-08-16 12:00:49 发布

阅读量419

点赞数

分类专栏： python开发语言

本文链接：https://blog.csdn.net/hsgzr1/article/details/104014709

版权

python开发语言专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、正则表达式常用符号：

常用符号
符号	功能
[]	匹配[]中列举出的字符，[^]排除[]中的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字，和\d相反
\s	匹配空白，即空格、tab键\t、换行\n
\S	匹配非空白，和\s相反
.	匹配任意字符（除了\n）
\w	匹配单词字符，即a-z、A-Z、0-9、_
\W	匹配非单词字符，和\w相反

举例：

1、[]、如：re.findall("[abc]456","a123a456b456abc456x456")，匹配a456,b456 c456，而不匹配x456。

2、[^]、如：re.findall("[^abc]456","a123a456b456abc456123d456ux456")，和上例正好相反，匹配除第一个字符是a、b、c、组成的，字符+456，即，除了a456、b456、c456以外的，其它字符加456组成的串，如，d456、x456、z456都匹配。

3、\d，如：re.findall(r"[\d]abc",abc0abc9abcdabcxabc")，匹配前面是一个数字，后面跟着abc的字符串，匹配，0abc,1abc...9abc，不匹配dabc,xabc。

4、\D，如：re.findall(r"[\D]abc","1abcbabc#abc#aabcccdabc")，匹配babc,#abc,dabc,不匹配1abc,2abc等。

5、\s，如：re.findall(r"a\sb","abaa bbabba\tbbbbaa\nb")，匹配'a b', 'a\tb', 'a\nb'。

6、\S,如：re.findall(r"a\Sb","aabaa1ba bbabba\tbba#bbaa\nb"),匹配'aab', 'a1b', 'abb', 'a#b'.

7、'.'，如：re.findall(r"a.b","abaa bbabbaa\tbbbbaa\nb")，匹配'a b', 'abb', 'a\tb'。

8、\w，如：re.findall(r"1\w2\w3\w","a1b2c3d1#2@3!c")，匹配'1b2c3d'

9、W，如：re.findall(r"1\W2\W3W","a1b2c3d1#2@3!c")，匹配1#2@3!。

二、正则表达式匹配次数常用符号

匹配数量符号
符号	功能
*	匹配前一个字符出现0次或者无限次，字符可有可无，如\d* 匹配0，也匹配00，同{0,}
+	匹配前一个字符至少出现一次或者无限次，至少一次，最多无限次,同{1,}
？	匹配前一个字符出现0次或者1次，最少0次，最多一次。同{0,1}
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现一次，最多无限次
{m,n}	匹配前一个字符至少出现m次，最多出现n次

举例：

1、*，如：re.findall(r"abc\d*","123abc345dabc"),匹配abc345和abc。

2、+，如：re.findall(r"abc\d+","123abc345dabc"),匹配abc345。

3、?，如：re.findall(r"abc\d?","123abc345dabc"),匹配abc3和abc。

4、{m}，如：re.findall(r"abc\d{3}","abc123abc12")，匹配abc123.

5、{m,}，如：re.findall(r"abc\d{2,}","abc123abc12")，匹配abc123，abc12。

6、{m,n}，如：re.findall(r"abc\d{1,2}","abc123abc11abc")，匹配匹配abc12，abc11。

三、正则表达式匹配边界

匹配边界符号
符号	功能
^	匹配开头字符，必须以^后面的字符开头。
$	匹配结尾字符，必须以$前面的字符结尾。
\b	匹配单词边界（字符串前须加r)
\B	匹配非单词边界，和\b相反

举例：

1、^，如：re.findall(r"^abc\d","abc123abc456")，匹配abc1。

2、$，如：re.findall(r"\d\w*c$","123abc\n456abc"),匹配456abc。

3、\b，如：re.findall(r"\w*\b","123#abc@_a1b2!!!")，匹配123，abc，_a1b2。

4、\B，如：re.findall(r"\W*\B","123###abc@ ！#_a1b2!!!")，匹配'12', '', 'ab', '', '_a1b'；re.findall(r"\W*\B","123###abc@ ！#_a1b2!!!")，匹配的是‘##', , '@ ！', '!!!'。

四、正则表达式匹配分组

匹配分组
字符	功能
\|	匹配左右任意表达式（匹配左边或者右边或者左右都匹配）
(表达式)	对用括号括起来的表达式进行分组，有一个括号分组一个
\(数字)	引用分组，数字从1开始，0是全局分组。
(?P<name>)	给分组取别名.
(?P=name)	用分组别名，引用分组值，不能使用\(数字)引用。

举例：

1、|，如：re.findall(r"a[b|B]c","123abc456aBc234Abc")，匹配abc和aBc。

2、()，如：re.findall(r"a(b|B)c","123abc456aBc234Abc")，结果是b,B，得到捕获分组值。

3、\数字，如：re.sub(r"(a)bc",r"(\1)Bc","abcabcababc123acaababc")，结果是aBcaBcabaBc123acaabc，将所有abc替换成aBc。

4、(?P<name)和(?P=name)，如：re.sub(r"(?P<a1>a)bc",r"(?P=a1)Bc","abcabcababc123acaababc")结果是aBcaBcabaBc123acaabc，将所有abc替换成aBc。

五、贪婪和非贪婪模式

贪婪和非贪婪模式匹配
字符	功能
默认	贪婪模式，尽可能多的匹配，能配多么多就配多么多。
数量匹配后加?	非贪婪模式，尽可能少的匹配，能配多么少配多么少

举例：

1、贪婪模式：如：re.match (r"\d+","1234abcde45678hijk")，结果是1234，尽可能的多匹配。

2、非贪婪模式：如：re.match (r"\d+?","1234abcde45678hijk")，结果是1，尽可能的少匹配。

六、