正则表达式:
单个字符匹配
等价关系:
\d == [0-9]
\D == [^0-9]
\w == [a-zA-Z0-9_]
表示数量
表示边界
匹配分组
需求:匹配出0-100之间的数字
(ab) 将括号中字符作为一个分组
\num 引用分组num匹配到的字符串
\2 \1 分别表示引用第2个分组、第1个分组的值
Group分组结果如下,匹配到的第一个(.+)作为第一个分组,依次类推
匹配邮箱,
(?P<name>) 分组起别名
(?P=name)引用别名为name分组匹配到的字符串
In [46]: re.match(r'<(.+)><(.+)>(.+)</(.+)><(.+)>','<html><h1>hello</h1></html>')
Out[46]: <_sre.SRE_Match object; span=(0, 27), match='<html><h1>hello</h1></html>'>
In [47]: re.match(r'<(?P<key1>.+)><(?P<key2>.+)>(.+)</(?P=key2)></(?P=key1)>','<html><h1>hello</h1></html>')
Out[47]: <_sre.SRE_Match object; span=(0, 27), match='<html><h1>hello</h1></html>'>
re.search 扫描整个字符串并返回第一个成功的匹配。
在目标字符串的任意位置,只会成功匹配一次就结束了,不会在尝试多次匹配。
In [61]: re.search(r'hello', '<html><h1>hello</h1></html>')
Out[61]: <_sre.SRE_Match object; span=(10, 15), match='hello'>
In [62]: re.search(r'hello', 'hello</h1></html>')
Out[62]: <_sre.SRE_Match object; span=(0, 5), match='hello'>
In [63]: re.search(r'^hello', 'hello</h1></html>')
Out[63]: <_sre.SRE_Match object; span=(0, 5), match='hello'>
re.findall()
Findall:在字符串中找到正则表达式所匹配的所有字串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意:match和search是匹配一次,findall匹配所有。
In [66]: re.findall(r'hello', '<html><h1>hello</h1></html>')
Out[66]: ['hello']
In [67]: re.findall(r'hello', '<html><h1>hello</h1>hello</html>')
Out[67]: ['hello', 'hello']
In [68]: re.findall(r'hello</h1>', '<html><h1>hello</h1>hello</html>')
Out[68]: ['hello</h1>']
In [69]: re.findall(r'\w+</h1>', '<html><h1>hello</h1></html>python</h1>')
Out[69]: ['hello</h1>', 'python</h1>']
re.sub()
将匹配到的数据进行替换
In [13]: def replace(result):
...: print(result.group())
...: r = int(result.group()) + 50
...: return str(r)
...:
In [14]: re.sub(r'\d+', replace, 'python=1000, php=0')
1000
0
Out[14]: 'python=1050, php=50'
In [15]: re.sub(r'php', 'python', 'python, c++, php, java, php, python')
Out[15]: 'python, c++, python, java, python, python'
提取文本内容
In [32]: s
Out[32]: '<div> <p>岗位职责:</p><p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p><p><br></p><p>必备要 求:</p><p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p><p> <br></p><p>技术要求:</p><p>1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</p><p>2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</p><p>3、 掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种<br></p><p>4、掌握NoSQL、MQ,熟练使用对应技术解决方 案</p>'
In [33]: re.sub(r'</*[a-z]+>| ', ' ', s)
Out[33]: ' 岗位职责: 完成推荐算法、数据统计、接口、后台等服务器端相关工作 必备要求: 良好的自我驱动力和 职业素养,工作积极主动、结果导向 技术要求: 1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式 2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架 3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中 的一种 4、掌握NoSQL、MQ,熟练使用对应技术解决方案 '
In [35]: re.split(r':|,|-', 'python,java:php,c++-c')
Out[35]: ['python', 'java', 'php', 'c++', 'c']
贪婪模式和非贪婪模式
Python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符。
解决方式:非贪婪操作符‘?’,这个操作符可以用在‘*’,‘+’,‘?’的后面,要求正则匹配的越少越好。
In [43]: re.match(r'aa(\d+)', 'aa2345ddd').group(1)
Out[43]: '2345'
In [44]: re.match(r'aa(\d+?)', 'aa2345ddd').group(1)
Out[44]: '2'
In [45]: re.match(r'aa(\d+)ddd', 'aa2345ddd').group(1)
Out[45]: '2345'
In [46]: re.match(r'aa(\d+?)ddd', 'aa2345ddd').group(1)
Out[46]: '2345'
匹配的结果要尽可能的满足正则表达式的条件,所以非贪婪模式也不是绝对的。如下:
即使使用了贪婪模式,为了满足最后面的ddd,所以也会尽可能包含数字。
In [46]: re.match(r'aa(\d+?)ddd', 'aa2345ddd').group(1)
Out[46]: '2345'
需求:
字符串为:<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">请提取url地址
需要使用非贪婪模式
In [62]: s
Out[62]: '<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">'
In [63]: re.search(r'https.+?\.jpg', s).group()
Out[63]: 'https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg'