python_正则表达式

最新推荐文章于 2023-12-15 10:37:34 发布

zk仔的博客

最新推荐文章于 2023-12-15 10:37:34 发布

阅读量136

点赞数

分类专栏： python_开发 python_爬虫

本文链接：https://blog.csdn.net/weixin_39532362/article/details/87938982

版权

python_开发同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

python_爬虫

14 篇文章 0 订阅

订阅专栏

python_正则表达式

常用函数
正则表达式模式
- 正则表达式实例

常用函数

编译匹配模式:

re.compile(pattern[, flags])：返回re.MatchObject，可被存入匹配参数pattern里

匹配:

re.match(pattern, string, flags=0)：从头开始匹配，只匹配1次
re.search(pattern, string, flags=0)：匹配整个字符串，只匹配1次

处理匹配结果:

re.MatchObject.group()：返回匹配字符串，0是全部，1是第一个子串，可以一次输入多组号（返回元组）
re.MatchObject.start()：返回匹配的开始索引
re.MatchObject.end()：返回匹配的结束索引
re.MatchObject.span()：返回元组，包含开始和结束索引

替换与检索:

re.sub(pattern, repl, string, count=0)：替换匹配字符串，可传入函数
re.finditer(pattern, string, flags=0)：返回构造器，包含所有匹配的re.MatchObject，匹配多次
re.RegexObject.findall(string[, pos[, endpos]])：返回列表，包含所有匹配的子串，匹配多次

函数参数说明:

参数
pattern	匹配的正则表达式
string	要匹配的字符串
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等
repl	替换的字符串，也可为一个函数
count	模式匹配后替换的最大次数，默认 0 表示替换所有的匹配
pos	可选参数，指定字符串的起始位置，默认为 0
endpos	可选参数，指定字符串的结束位置，默认为字符串的长度

flags参数的选项:

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

正则表达式模式

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
[…]	用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符
re*	匹配0个或多个的表达式
re+	匹配1个或多个的表达式
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}	匹配n个前面表达式例如，"o{2}“不能匹配"Bob"中的"o”，但是能匹配"food"中的两个o
re{ n,}	精确匹配n个前面表达式例如，"o{2,}“不能匹配"Bob"中的"o”，但能匹配"foooood"中的所有o"o{1,}“等价于"o+”"o{0,}“则等价于"o*”
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a	b
(re)	匹配括号内的表达式，也表示一个组
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 只影响括号中的区域
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志只影响括号中的区域
(?: re)	类似 (…), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#…)	注释.
(?= re)	前向肯定界定符如果所含正则表达式，以 … 表示，在当前位置成功匹配时成功，否则失败但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边
(?! re)	前向否定界定符与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
(?> re)	匹配的独立模式，省去回溯
\w	匹配数字字母下划线
\W	匹配非数字字母下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\b	匹配一个单词边界，也就是指单词和空格间的位置例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’
\B	匹配非单词边界’er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’
\n, \t, 等	匹配一个换行符匹配一个制表符, 等
\1…\9	匹配第n个分组的内容
\10	匹配第n个分组的内容，如果它经匹配否则指的是八进制字符码的表达式

正则表达式实例

实例	描述
[Pp]ython	匹配 “Python” 或 “python”
rub[ye]	匹配 “ruby” 或 “rube”
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任何数字。类似于 [0123456789]
[a-z]	匹配任何小写字母
[A-Z]	匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了数字外的字符