正则表达式

QSQ95

已于 2022-05-06 10:29:47 修改

阅读量109

点赞数

文章标签：正则表达式

于 2020-10-20 20:32:35 首次发布

本文链接：https://blog.csdn.net/m0_51623564/article/details/109187560

版权

一、正则表达式是一个特殊的字符序列，利用事先定义好的一些特定字符以及它们的组合组成一个“规则”，检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。正则表达式是字符串处理的有力工具，但是并不是Python独有的，其他语言也有。

二、1.Python中，re模块提供了正则表达式操作所需要的功能。所以用正则表达式要导re模块。
2.元字符：大多数字母和字符一般都会和自身匹配。如果在字符串前面加了r，表示对字符串不进行转义。有些字符比较特殊，它们和自身并不匹配，而是表明应和一些特殊的东西匹配，或者会影响重复次数。这些特殊的字符我们称之为元字符。
3.re模块中findall()方法以列表的形式返回所有能匹配的子串，如果没有找到匹配的，则返回空列表。

三、常用的正则表达式元字符
1.“.”:表示除换行符以外的任意字符。
与“.”类似（但不相同）的一个符号是“\S”，表示不是空白符（空格,\n,\t）的任意字符。注意是大写字符S。
2.“[]”：指定字符集
常用来指定一个字符集，例如：[abc]、[a-z]、[0-9]；
元字符在方括号中不起作用，例如：[akm$]和[m.]中元字符都不起作用；
方括号内的“^{”表示补集，匹配不在区间范围内的字符，例如：[}3]表示除3以外的字符。

3.“^”：匹配行首，此字符以后面的字符开头的字符串
4.“&”：匹配行尾，匹配以$之前的字符结束的字符串
5.“\”：反斜杠后面可以加不同的字符以表示不同的特殊意义

字符	意义
\b	匹配单词头或单词尾
\B	与\b相反，匹配非单词头或单词尾
\d	匹配任何十进制数；相当于[0-9]
\D	与\d相反，匹配任何非数字字符，相当于[^0-9]
\s	匹配任何空白字符，相当于[\t\n\r\f\v]
\S	与\s相反，匹配任何非空白字符，相当于[^\t\n\r\f\v]
\w	匹配任何字母、数字或下画线字符，相当于[a-zA-Z0-9_]
\W	与\w相反，匹配任何非字母、数字和下画线字符，相当于[^a-zA-Z0-9_]
也可以用于取消所有的元字符：\\、\[。
这些特殊字符都可以包含在[]中。如：[\s,.]将匹配任何空白字符、“,“或”.”。
6.正则表达式除了能够匹配不定长的字符集，还能指定正则表达式的一部分的重复次数，所涉及的元字符有“*”、“+”、“?”、“{}”。
元字符	意义
–	–
*	匹配位于之前的字符或子模式的0次或多次*出现
+	匹配位于+之前的字符或子模式的1次或多次出现
?	匹配位于?之前的0个或1个字符