Python 正则表达式

正则表达式:

单个字符匹配

 

 

等价关系:

\d == [0-9]

\D == [^0-9]

\w == [a-zA-Z0-9_]

表示数量

 

 

 

表示边界

匹配分组

需求:匹配出0-100之间的数字

 

(ab) 将括号中字符作为一个分组

\num 引用分组num匹配到的字符串

 \2  \1 分别表示引用第2个分组、第1个分组的值

Group分组结果如下,匹配到的第一个(.+)作为第一个分组,依次类推

匹配邮箱,

 

(?P<name>) 分组起别名

(?P=name)引用别名为name分组匹配到的字符串

In [46]: re.match(r'<(.+)><(.+)>(.+)</(.+)><(.+)>','<html><h1>hello</h1></html>')
Out[46]: <_sre.SRE_Match object; span=(0, 27), match='<html><h1>hello</h1></html>'>

In [47]: re.match(r'<(?P<key1>.+)><(?P<key2>.+)>(.+)</(?P=key2)></(?P=key1)>','<html><h1>hello</h1></html>')
Out[47]: <_sre.SRE_Match object; span=(0, 27), match='<html><h1>hello</h1></html>'>

re.search 扫描整个字符串并返回第一个成功的匹配。

在目标字符串的任意位置,只会成功匹配一次就结束了,不会在尝试多次匹配。

In [61]: re.search(r'hello', '<html><h1>hello</h1></html>')
Out[61]: <_sre.SRE_Match object; span=(10, 15), match='hello'>

In [62]: re.search(r'hello', 'hello</h1></html>')
Out[62]: <_sre.SRE_Match object; span=(0, 5), match='hello'>

In [63]: re.search(r'^hello', 'hello</h1></html>')
Out[63]: <_sre.SRE_Match object; span=(0, 5), match='hello'>

re.findall()

Findall:在字符串中找到正则表达式所匹配的所有字串,并返回一个列表,如果没有找到匹配的,则返回空列表。

注意:match和search是匹配一次,findall匹配所有。

In [66]: re.findall(r'hello', '<html><h1>hello</h1></html>')
Out[66]: ['hello']

In [67]: re.findall(r'hello', '<html><h1>hello</h1>hello</html>')
Out[67]: ['hello', 'hello']

In [68]: re.findall(r'hello</h1>', '<html><h1>hello</h1>hello</html>')
Out[68]: ['hello</h1>']

In [69]: re.findall(r'\w+</h1>', '<html><h1>hello</h1></html>python</h1>')
Out[69]: ['hello</h1>', 'python</h1>']

re.sub()

将匹配到的数据进行替换

In [13]: def replace(result):
    ...:     print(result.group())
    ...:     r = int(result.group()) + 50
    ...:     return str(r)
    ...:

In [14]: re.sub(r'\d+', replace, 'python=1000, php=0')
1000
0
Out[14]: 'python=1050, php=50'

In [15]: re.sub(r'php', 'python', 'python, c++, php, java, php, python')
Out[15]: 'python, c++, python, java, python, python'

提取文本内容

In [32]: s
Out[32]: '<div>        <p>岗位职责:</p><p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p><p><br></p><p>必备要 求:</p><p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p><p>&nbsp;<br></p><p>技术要求:</p><p>1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</p><p>2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</p><p>3、 掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种<br></p><p>4、掌握NoSQL、MQ,熟练使用对应技术解决方 案</p>'

In [33]: re.sub(r'</*[a-z]+>|&nbsp;', ' ', s)
Out[33]: '          岗位职责:  完成推荐算法、数据统计、接口、后台等服务器端相关工作     必备要求:  良好的自我驱动力和 职业素养,工作积极主动、结果导向      技术要求:  1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式  2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架  3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中 的一种   4、掌握NoSQL、MQ,熟练使用对应技术解决方案 '

 

In [35]: re.split(r':|,|-', 'python,java:php,c++-c')
Out[35]: ['python', 'java', 'php', 'c++', 'c']

贪婪模式和非贪婪模式

Python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符。

解决方式:非贪婪操作符‘?’,这个操作符可以用在‘*’,‘+’,‘?’的后面,要求正则匹配的越少越好。

In [43]: re.match(r'aa(\d+)', 'aa2345ddd').group(1)
Out[43]: '2345'

In [44]: re.match(r'aa(\d+?)', 'aa2345ddd').group(1)
Out[44]: '2'

In [45]: re.match(r'aa(\d+)ddd', 'aa2345ddd').group(1)
Out[45]: '2345'

In [46]: re.match(r'aa(\d+?)ddd', 'aa2345ddd').group(1)
Out[46]: '2345'

匹配的结果要尽可能的满足正则表达式的条件,所以非贪婪模式也不是绝对的。如下:

即使使用了贪婪模式,为了满足最后面的ddd,所以也会尽可能包含数字。

In [46]: re.match(r'aa(\d+?)ddd', 'aa2345ddd').group(1)

Out[46]: '2345'

需求:

字符串为:<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">请提取url地址

需要使用非贪婪模式

In [62]: s
Out[62]: '<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">'

In [63]: re.search(r'https.+?\.jpg', s).group()
Out[63]: 'https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg'

 

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值