Python 正则表达式

最新推荐文章于 2024-07-22 21:38:50 发布

msdn_make

最新推荐文章于 2024-07-22 21:38:50 发布

阅读量159

点赞数

本文链接：https://blog.csdn.net/msdn_make/article/details/113833374

版权

正则表达式：

单个字符匹配

等价关系：

\d == [0-9]

\D == [^0-9]

\w == [a-zA-Z0-9_]

表示数量

表示边界

匹配分组

需求：匹配出0-100之间的数字

(ab) 将括号中字符作为一个分组

\num 引用分组num匹配到的字符串

\2 \1 分别表示引用第2个分组、第1个分组的值

Group分组结果如下，匹配到的第一个（.+）作为第一个分组，依次类推

匹配邮箱，

(?P<name>) 分组起别名

(?P=name)引用别名为name分组匹配到的字符串

In [46]: re.match(r'<(.+)><(.+)>(.+)</(.+)><(.+)>','<html><h1>hello</h1></html>')
Out[46]: <_sre.SRE_Match object; span=(0, 27), match='<html><h1>hello</h1></html>'>

In [47]: re.match(r'<(?P<key1>.+)><(?P<key2>.+)>(.+)</(?P=key2)></(?P=key1)>','<html><h1>hello</h1></html>')
Out[47]: <_sre.SRE_Match object; span=(0, 27), match='<html><h1>hello</h1></html>'>

re.search 扫描整个字符串并返回第一个成功的匹配。

在目标字符串的任意位置，只会成功匹配一次就结束了，不会在尝试多次匹配。

In [61]: re.search(r'hello', '<html><h1>hello</h1></html>')
Out[61]: <_sre.SRE_Match object; span=(10, 15), match='hello'>

In [62]: re.search(r'hello', 'hello</h1></html>')
Out[62]: <_sre.SRE_Match object; span=(0, 5), match='hello'>

In [63]: re.search(r'^hello', 'hello</h1></html>')
Out[63]: <_sre.SRE_Match object; span=(0, 5), match='hello'>

re.findall()

Findall:在字符串中找到正则表达式所匹配的所有字串，并返回一个列表，如果没有找到匹配的，则返回空列表。

注意：match和search是匹配一次，findall匹配所有。

In [66]: re.findall(r'hello', '<html><h1>hello</h1></html>')
Out[66]: ['hello']

In [67]: re.findall(r'hello', '<html><h1>hello</h1>hello</html>')
Out[67]: ['hello', 'hello']

In [68]: re.findall(r'hello</h1>', '<html><h1>hello</h1>hello</html>')
Out[68]: ['hello</h1>']

In [69]: re.findall(r'\w+</h1>', '<html><h1>hello</h1></html>python</h1>')
Out[69]: ['hello</h1>', 'python</h1>']

re.sub()

将匹配到的数据进行替换

In [13]: def replace(result):
    ...:     print(result.group())
    ...:     r = int(result.group()) + 50
    ...:     return str(r)
    ...:

In [14]: re.sub(r'\d+', replace, 'python=1000, php=0')
1000
0
Out[14]: 'python=1050, php=50'

In [15]: re.sub(r'php', 'python', 'python, c++, php, java, php, python')
Out[15]: 'python, c++, python, java, python, python'

提取文本内容

In [32]: s
Out[32]: '<div>        <p>岗位职责：</p><p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p><p><br></p><p>必备要 求：</p><p>良好的自我驱动力和职业素养，工作积极主动、结果导向</p><p>&nbsp;<br></p><p>技术要求：</p><p>1、一年以上 Python 开发经验，掌握面向对象分析和设计，了解设计模式</p><p>2、掌握HTTP协议，熟悉MVC、MVVM等概念以及相关WEB开发框架</p><p>3、 掌握关系数据库开发设计，掌握 SQL，熟练使用 MySQL/PostgreSQL 中的一种<br></p><p>4、掌握NoSQL、MQ，熟练使用对应技术解决方 案</p>'

In [33]: re.sub(r'</*[a-z]+>|&nbsp;', ' ', s)
Out[33]: '          岗位职责：  完成推荐算法、数据统计、接口、后台等服务器端相关工作     必备要求：  良好的自我驱动力和 职业素养，工作积极主动、结果导向      技术要求：  1、一年以上 Python 开发经验，掌握面向对象分析和设计，了解设计模式  2、掌握HTTP协议，熟悉MVC、MVVM等概念以及相关WEB开发框架  3、掌握关系数据库开发设计，掌握 SQL，熟练使用 MySQL/PostgreSQL 中 的一种   4、掌握NoSQL、MQ，熟练使用对应技术解决方案 '

In [35]: re.split(r':|,|-', 'python,java:php,c++-c')
Out[35]: ['python', 'java', 'php', 'c++', 'c']

贪婪模式和非贪婪模式

Python里数量词默认是贪婪的，总是尝试匹配尽可能多的字符。

解决方式：非贪婪操作符‘？’，这个操作符可以用在‘*’，‘+’，‘？’的后面，要求正则匹配的越少越好。

In [43]: re.match(r'aa(\d+)', 'aa2345ddd').group(1)
Out[43]: '2345'

In [44]: re.match(r'aa(\d+?)', 'aa2345ddd').group(1)
Out[44]: '2'

In [45]: re.match(r'aa(\d+)ddd', 'aa2345ddd').group(1)
Out[45]: '2345'

In [46]: re.match(r'aa(\d+?)ddd', 'aa2345ddd').group(1)
Out[46]: '2345'

匹配的结果要尽可能的满足正则表达式的条件，所以非贪婪模式也不是绝对的。如下：

即使使用了贪婪模式，为了满足最后面的ddd，所以也会尽可能包含数字。

In [46]: re.match(r'aa(\d+?)ddd', 'aa2345ddd').group(1)

Out[46]: '2345'

需求：

字符串为:<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">请提取url地址

需要使用非贪婪模式

In [62]: s
Out[62]: '<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">'

In [63]: re.search(r'https.+?\.jpg', s).group()
Out[63]: 'https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg'