正则表达式
1、基础
- 在正则表达式中,如果直接给出字符,就是精确匹配。\d匹配一个数字,\w匹配一个字母或数字。.可以匹配任意字符。
- *表示任意个字符;+表示至少一个字符;\s表示匹配一个空格;?表示0个或1个字符;{n}表示n个字符,{n,m}表示n-m个字符。
- 对于’-'这种特殊字符,要用\转义。
2、进阶
- [0-9a-zA-Z_]:可以匹配一个数字、字母或者下划线;
- [0-9a-zA-Z_]+:可以匹配至少由一个数字、字母或者下划线组成的字符串,比如’a10’;
- A|B可以匹配A或B,
^
表示行的开头,^\d
表示必须以数字开头。$
表示行的结束,\d$
表示必须以数字结束。
3、re模块
- 使用r前缀,不用考虑转义的问题:s = r’ABC-001’
- 用re.match(r+正则表达式, 需要判断的字符串)方法判断是否匹配,如果成功,返回一个Match对象,否则返回None。
4、切分字符串
- 用正则表达式切分字符串比用固定的字符更灵活,re.split(r+正则表达式, 需要切分的字符串)
5、分组
- 可以提取字符串,用()表示的就是要提取的分组。分组后,可以用group()方法提取子串,groups()会返回所有字符串组成的一个tuple。
- group(0)为原始字符串。
6、贪婪匹配
- 正则默认是贪婪匹配,尽可能多的匹配字符,可以用?来避免。