正则表达式听着高大上？详解Python正则表达式(附速查字典)_python字典正则

最新推荐文章于 2024-06-22 09:36:52 发布

2401_84563561

最新推荐文章于 2024-06-22 09:36:52 发布

阅读量805

点赞数 24

分类专栏：程序员文章标签：正则表达式 python 前端

本文链接：https://blog.csdn.net/2401_84563561/article/details/138423065

版权

程序员专栏收录该内容

184 篇文章 0 订阅

订阅专栏

示例：

匹配\n: "\\n"
匹配换行符: "\n"

2.5 {m,n}

定义匹配次数 。省略m表示0下限，省略n表示无穷上限。注意该元字符属于贪婪匹配，即在所有符合匹配规则的字符串中选择匹配次数大的字符串

示例：

匹配两个字母: "[a-zA-Z]{2}"

2.6 *

匹配零次或多次，等价于(,)

2.7 +

匹配一次或多次，等价于(1,)

2.8 ?

匹配零次或一次，等价于(0,1)，{m,n}?声明非贪婪匹配，即在所有符合匹配规则的字符串中选择匹配次数小的字符串

示例：

string = "{ymd:'2018-01-01',tianqi:'晴',aqiInfo:'轻度污染'},\
 {ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},\
 {ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},\
 {ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'}"
print(re.findall(r"tianqi:'(.\*?)'", string))

*?先进行贪婪匹配，再进行非贪婪匹配。

首先进行贪婪匹配，从第一个tianqi:'开始到最后一个’为止，其间的字符串均为匹配字符串，即

tianqi:'晴',aqiInfo:'轻度污染'},\
{ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},\
{ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},\
{ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'

接下来在贪婪匹配的结果中进行非贪婪匹配，即从第一个tianqi:'开始到最近一个’为止均为匹配字符串，即

[tianqi:'晴', tianqi:'阴~小雨', tianqi:'小雨~中雨', tianqi:'中雨~小雨']

最后用()进行匹配提取：

['晴', '阴~小雨', '小雨~中雨', '中雨~小雨']

2.9 .

匹配除换行符以外的任意字符

2.10 ()

匹配结果分组提取

3 Python正则库re的使用

3.1 字符串替换

re库提供的方法sub(reg, strReplace, str)与subn(reg, strReplace, str)可将符合正则reg的字符串替换成strReplace，区别在于前者仅返回替换后的字符串而后者多返回一个替换次数。

3.2 字符串分割

re库提供的方法split(div, str)可将字符串以分隔符div为界进行分割，返回分割后的数组。

4 常用正则转义字符表

特殊字符	说明
\b	匹配单词边界。例如’er\b’可匹配"never"中的’er’但不能匹配"verb"中的’er’
\B	匹配非单词边界。例如’er\B’可匹配"verb"中的’er’，但不能匹配"never"中的’er’
\d	匹配数字字符，等价于[0-9]
\D	匹配非数字字符，等价于[^0-9]
\f	匹配换页符，等价于\x0c和\cL
\n	匹配换行符，等价于\x0a和\cJ
\r	匹配回车符，等价于\x0d和\cM
\s	匹配空白字符，包括空格、制表符、换页符等。等价于[ \f\n\r\t\v]
\S	匹配非空白字符，等价于[^ \f\n\r\t\v]
\t	匹配制表符，等价于\x09和\cI
\v	匹配一个垂直制表符，等价于\x0b和\cK
\w	匹配字母、数字、下划线，等价于[A-Za-z0-9_]
\W	匹配非字母、数字、下划线，等价于[^A-Za-z0-9_]

5 常用正则表达式

5.1 数字校验正则

数字：¹*$
m-n位的数字：^\d{m,n}$
正数、负数和小数：^(-|+)?\d+(.\d+)?$
非负整数：^\d+$
非正整数：^-[1-9]\d*|0$
非负浮点数：^\d+(.\d+)?$
非正浮点数：^((-\d+(.\d+)?)|(0+(.0+)?))$
正浮点数：²\d*.\d*|0.\d*[1-9]\d*$
负浮点数：^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$
浮点数：^(-?\d+)(.\d+)?$

5.2 字符校验正则

汉字：³{0,}$
英文和数字：⁴+$
由26个英文字母组成的字符串：⁵+$
由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}$
中文、英文、数字但不包括下划线等符号：⁶+$
禁止输入含有_{的字符：[^}\x22]+

5.3 特殊需求正则

Email地址：^\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)*$
域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
InternetURL：^http://([\w-]+.)+[\w-]+(/[\w-./?%&=]*)?$
手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
身份证号(15位、18位数字)：^\d{15}|\d{18}$
日期格式：^\d{4}-\d{1,2}-\d{1,2}
空白行：\n\s*\r (可以用来删除空白行)
HTML：<(\S*?)[^>]>.?</\1>|<.*? />
首尾空白字符：^\s*|\s*KaTeX parse error: Undefined control sequence: \s at position 4: 或(^\̲s̲*)|(\s*) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)
腾讯QQ号：[1-9][0-9]{4,}
中国邮政编码：[1-9]\d{5}(?!\d)
IP地址：\d+.\d+.\d+.\d+

6 代码实战

import re

# 元字符[] ^ $的应用
print(re.findall("a[a-z0-9]c$","abcabca^caccaaca5c"))

# 元字符\的应用
print(re.findall(r'\n','abc\n'))

# 元字符{} \* + ?的应用
print(re.findall(r'[a-z]{1,2}\d', 'a2b1cd2c12\_'))
print(re.findall(r'[a-z]{1,2}?\d', 'a2b1cd2c12\_'))
print(re.findall(r'[a-z]?\d', 'a2b1cd2c12\_'))
print(re.findall(r'[a-z]\*\d', 'a2b1cd2c12\_'))
print(re.findall(r'[a-z]+\d', 'a2b1cd2c12\_'))

# 元字符()的应用
string = "{ymd:'2018-01-01',tianqi:'晴',aqiInfo:'轻度污染'},\
            {ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},\
           {ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},\
           {ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'}"


![在这里插入图片描述](https://img-blog.csdnimg.cn/20210511152217670.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poaWd1aWd1,size_16,color_FFFFFF,t_70)

**感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：**



①　2000多本Python电子书（主流和经典的书籍应该都有了）

②　Python标准库资料（最全中文版）

③　项目源码（四五十个有趣且经典的练手项目及源码）

④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友，可以戳这里无偿获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**