正则表达式
正则表达式
正则表达式是一种让复杂的字符串问题变得简单的一个工具
re模块 是python用来支持正则相关操作的系统模块
re模块中的函数
(常用) fullmatch(正则表达式,字符串)–判断正则表达式和指定的字符串是否完全匹配,不能匹配结果None
match(正则表达式,字符串) - 匹配字符串开头,匹配成功返回匹配对象,匹配失败返回None
search(正则表达式,字符串) - 获取字符串中第一个满足正则的子串,找到了返回子串对应的匹配对象,找不到返回None
(常用) findall(正则表达式,字符串) - 获取字符串中所有满足正则的子串,返回一个列表,列表中的元素是字符串或者元组
finditer(正则表达式,字符串) - 获取字符串中所有满足正则的子串,返回一个迭代器,迭代器中的元素是子串对应的匹配对象
(常用) split(正则表达式,字符串) - 将字符串中所有满足正则的子串作为切割点,对字符串进行切割,返回一个列表,列表中的元素是字符串
(常用) sub(正则表达式,字符串1,字符串2) - 将字符串2中所有满足正则的子串都替换成字符串1返回替换后的新字符串
匹配类符号
正则表达式是由各种各样的正则符号组合而成
- 普通字符 - 在正则中没有特殊功能和意义的字符
普通字符在正则表达式中表示符号本身, 比例:a ~ z、A ~ Z、0~9、中文、… - 特殊符号
. - 匹配一个任意字符
\d - 匹配一个数字字符
\w - 匹配一个字母数字下划线字符
\s - 匹配一个任意空白字符
空白字符: 空格, \t, \n
\D \S - 匹配一个not \d \s
\D - 匹配任意一个非数字字符
\S - 匹配任意一个非空白字符
[字符集] - 匹配字符集中任意一个字符
[字符集]案例:
情况一:全是普通字符; [xyz12] - 匹配x或者y或者z或者1或者1
情况二:包含\开头的匹配符号, 这个时候匹配符号的功能有效; [mn\d] == [mn0123456789]
情况三:减号在两个符号之间,表示谁到谁
[a-z] - 匹配任意一个小写字母
[A-Z] - 匹配任意一个大写字母
[a-zA-Z] - 匹配任意一个大写字母
[\u4e00-\u9fa5] - 匹配任意一个中文
[1-9]
…
[^字符集] - 匹配不在字符集中任意一个字符 - 匹配次数
* - * 前的字符可以出现0次或者多次(任意次数)
{N} - {}前的字符出现N次
{M,N} - {}前的字符可以出现M次到N次
{M,} - {}前的字符可以出现至少出现M次
{,N} - {}前的字符可以出现最多出现N次
+ - + 前的字符可以出现1次或者多次(至少1次)
? - ? 前的字符可以出现0次或者1次
在匹配次数不确定的时候,匹配模式分为贪婪和非贪婪两种(默认是贪婪模式)
*、+、{M,N}、{M,}、{,N}、?? - 贪婪
*?、+?、{M,N}?、{M,}?、{,N}?、?? - 非贪婪
注意:python中处理fullmatch以外都可能出现贪婪和非贪婪的问题
分组 - ()
应用场景1∶将正则表达式中的部分用()括起来作为一个整体进行相关操作
应用场景2∶重复 - 可以在有分组的正则表达式中通过’\N’来重复它前面第N个分组匹配到的内容
应用场景3:捕获 - 使用findall的时候,如果正则表达式中有分组,返回数据的时候只返回分组中匹配到的内容
分支 - |
正则1|正则2 - 正则1和正则2中只要有一个能匹配成功就匹配成功
转义符号 - 在本身具备特殊功能或者特殊意义的符号前加\,让其功能或者意义消失,变成一个普通符号
让符号功能消失的另外一个方法:单独一个符号有特殊功能时候可以将这个符号方法门中让其功能消失
忽略大小写 - 在正则的最前面加(?i)
多行匹配 - 多行匹配的时候.不能和’\n’匹配(默认) - (?m)
单行匹配 - 单行匹配的时候.能和’\n’匹配 - 在正则的最前面加(?s)
274

被折叠的 条评论
为什么被折叠?



