示例:
匹配\n: "\\n" 匹配换行符: "\n"
2.5 {m,n}
定义匹配次数 。省略m表示0下限,省略n表示无穷上限。注意该元字符属于贪婪匹配,即在所有符合匹配规则的字符串中选择匹配次数大的字符串
示例:
匹配两个字母: "[a-zA-Z]{2}"
2.6 *
匹配零次或多次,等价于(,)
2.7 +
匹配一次或多次,等价于(1,)
2.8 ?
匹配零次或一次,等价于(0,1),{m,n}?声明非贪婪匹配,即在所有符合匹配规则的字符串中选择匹配次数小的字符串
示例:
string = "{ymd:'2018-01-01',tianqi:'晴',aqiInfo:'轻度污染'},\ {ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},\ {ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},\ {ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'}" print(re.findall(r"tianqi:'(.\*?)'", string))
*?先进行贪婪匹配,再进行非贪婪匹配。
首先进行贪婪匹配,从第一个tianqi:'
开始到最后一个’为止,其间的字符串均为匹配字符串,即
tianqi:'晴',aqiInfo:'轻度污染'},\
{ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},\
{ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},\
{ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'
接下来在贪婪匹配的结果中进行非贪婪匹配,即从第一个tianqi:'
开始到最近一个’为止均为匹配字符串,即
[tianqi:'晴', tianqi:'阴~小雨', tianqi:'小雨~中雨', tianqi:'中雨~小雨']
最后用()进行匹配提取:
['晴', '阴~小雨', '小雨~中雨', '中雨~小雨']
2.9 .
匹配除换行符以外的任意字符
2.10 ()
匹配结果分组提取
3 Python正则库re的使用
3.1 字符串替换
re库提供的方法sub(reg, strReplace, str)
与subn(reg, strReplace, str)
可将符合正则reg的字符串替换成strReplace,区别在于前者仅返回替换后的字符串而后者多返回一个替换次数。
3.2 字符串分割
re库提供的方法split(div, str)
可将字符串以分隔符div为界进行分割,返回分割后的数组。
4 常用正则转义字符表
特殊字符 | 说明 |
---|---|
\b | 匹配单词边界。例如’er\b’可匹配"never"中的’er’但不能匹配"verb"中的’er’ |
\B | 匹配非单词边界。例如’er\B’可匹配"verb"中的’er’,但不能匹配"never"中的’er’ |
\d | 匹配数字字符,等价于[0-9] |
\D | 匹配非数字字符,等价于[^0-9] |
\f | 匹配换页符,等价于\x0c和\cL |
\n | 匹配换行符,等价于\x0a和\cJ |
\r | 匹配回车符,等价于\x0d和\cM |
\s | 匹配空白字符,包括空格、制表符、换页符等。等价于[ \f\n\r\t\v] |
\S | 匹配非空白字符,等价于[^ \f\n\r\t\v] |
\t | 匹配制表符,等价于\x09和\cI |
\v | 匹配一个垂直制表符,等价于\x0b和\cK |
\w | 匹配字母、数字、下划线,等价于[A-Za-z0-9_] |
\W | 匹配非字母、数字、下划线,等价于[^A-Za-z0-9_] |
5 常用正则表达式
5.1 数字校验正则
- 数字:1*$
- m-n位的数字:^\d{m,n}$
- 正数、负数和小数:^(-|+)?\d+(.\d+)?$
- 非负整数:^\d+$
- 非正整数:^-[1-9]\d*|0$
- 非负浮点数:^\d+(.\d+)?$
- 非正浮点数:^((-\d+(.\d+)?)|(0+(.0+)?))$
- 正浮点数:2\d*.\d*|0.\d*[1-9]\d*$
- 负浮点数:^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$
- 浮点数:^(-?\d+)(.\d+)?$
5.2 字符校验正则
- 汉字:3{0,}$
- 英文和数字:4+$
- 由26个英文字母组成的字符串:5+$
- 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$
- 中文、英文、数字但不包括下划线等符号:6+$
- 禁止输入含有的字符:[^\x22]+
5.3 特殊需求正则
- Email地址:^\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)*$
- 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
- InternetURL:^http://([\w-]+.)+[\w-]+(/[\w-./?%&=]*)?$
- 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
- 身份证号(15位、18位数字):^\d{15}|\d{18}$
- 日期格式:^\d{4}-\d{1,2}-\d{1,2}
- 空白行:\n\s*\r (可以用来删除空白行)
- HTML:<(\S*?)[^>]>.?</\1>|<.*? />
- 首尾空白字符:^\s*|\s*KaTeX parse error: Undefined control sequence: \s at position 4: 或(^\̲s̲*)|(\s*) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)
- 腾讯QQ号:[1-9][0-9]{4,}
- 中国邮政编码:[1-9]\d{5}(?!\d)
- IP地址:\d+.\d+.\d+.\d+
6 代码实战
import re
# 元字符[] ^ $的应用
print(re.findall("a[a-z0-9]c$","abcabca^caccaaca5c"))
# 元字符\的应用
print(re.findall(r'\n','abc\n'))
# 元字符{} \* + ?的应用
print(re.findall(r'[a-z]{1,2}\d', 'a2b1cd2c12\_'))
print(re.findall(r'[a-z]{1,2}?\d', 'a2b1cd2c12\_'))
print(re.findall(r'[a-z]?\d', 'a2b1cd2c12\_'))
print(re.findall(r'[a-z]\*\d', 'a2b1cd2c12\_'))
print(re.findall(r'[a-z]+\d', 'a2b1cd2c12\_'))
# 元字符()的应用
string = "{ymd:'2018-01-01',tianqi:'晴',aqiInfo:'轻度污染'},\
{ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},\
{ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},\
{ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'}"
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210511152217670.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poaWd1aWd1,size_16,color_FFFFFF,t_70)
**感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:**
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)
**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
**[需要这份系统化学习资料的朋友,可以戳这里无偿获取](https://bbs.csdn.net/topics/618317507)**
**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**