一、介绍
1.1 含义
正则表达式(regular expression),用一种特殊的"规则字符串"来表达对字符串的一种过滤逻辑(对字符串检索、替换、匹配验证的表达式),对于爬虫来说就是从HTML中提取数据信息。
1.2 在线正则
二、常用匹配规则(元字符)
正则表达式中具有一些特殊含义的字符,比如:重复N次前面的字符
模式 | 描述 |
---|---|
\d | 匹配一个数字字符([0-9]) |
\D | 匹配一个非数字字符([^0-9]) |
\w | 匹配数字、字母及下划线([[a-zA-Z0-9]]) |
\W | 匹配非字母、数字及下划线([^a-zA-Z0-9])(可匹配特殊符号 @#¥) |
\s | 匹配任何空白字符,包括空格,制表符,换页符([\f\n\t\v]) |
\S | 匹配任何非空白字符([^\f\n\t\v]) |
\A | 匹配字符串开头 |
\z | 匹配字符串结尾,如果存在换行,同时还会匹配换行符 |
\Z | 匹配字符串结尾,如果存在换行,只匹配到换行前的结束字符串 |
\G | 匹配最后匹配完成的位置 |
\n | 匹配一个换行符 |
\t | 匹配一个制表符 |
^ | 匹配到字符串开始的位置 |
$ | 匹配到字符串结束的位置 |
[…] | 用来表示一组字符,单独列出,比如[abc],匹配a,b或c |
. | 匹配除了换行符以外的任意单个字符 |
* | 匹配0个或多个表达式,匹配前面字符无限次 |
? | 匹配0次,1次{0, 1},非贪婪模式 |
+ | 至少匹配1次或多次{1, } |
{n} | 精确匹配n个前面的表达式 |
{n, } | 前面的数字至少出现n次 |
{n, m} | 匹配n到m次由前面正则表达式定义的片段,贪婪模式 |
a|b | 匹配a或b |
( ) | 匹配括号内的表达式,也表示一个组,便于使用group()提取里面内容 |
三、元字符使用举例
3.1 普通字符作为原子
原子:正则表达式的一个基本组成单位,每个正则表达式至少有一个原子
import re
str = "http://www.baidu.com"
pat = "baidu"
result = re.search(pat,str)
print(result)
3.2 非打印字符作为原子
import re
str = "abc\ndef"
pat="\n"
result=re.search(pat,str)
print(result)
3.3 范围匹配 [ ]
匹配大小写字母,数字,下划线([[a-zA-Z0-9]])
匹配数字([0-9])
匹配非数字([^0-9])
import re
str = "_abc123@def"
pat = "[abc]"
result=re.search(pat,str)
print(result)
3.4 匹配目标 ( )、+
():匹配( )内的表达式,便于使用group()提取里面内容
+:至少匹配一次或多次
import re
str = 'Hello 123 abc Hello_World nice'
result = re.match('^Hello\s\d{3}\s\w{3}\s(\w+)', str)
print(result.group())
# 匹配第一个组如果后边有多个表达式还可以用group(2)、group(3)表示
print(result.group(1))
3.5 通用匹配 .*
.:匹配除换行符以外的任意字符
*:匹配前面字符无限次
import re
str = 'Hello 123 abc Hello_World nice'
result = re.match('^Hello.*nice$', str)
print(result.group())
3.6 贪婪模式 .*
.*:尽可能匹配多的字符
缺点:容易出现匹配结果缺失情况
(由于.*是贪婪模式,因此会尽可能多的匹配。字符.*后边是\d+没有指定多少次因此至少匹配一次,结合.*多匹配特性,因此就把12匹配掉了)
import re
str = 'Hello 123 abc Hello_World nice'
result = re.match('^H.*(\d+)', str)
print(result.group())
print(result.group(1))
3.7 非贪婪模式(懒惰模式).*?
.*?:尽可能匹配少的字符
字符串中间尽量使用非贪婪模式,减少匹配结果缺失,如果匹配结果在字符串结尾,.*?有可能匹配不到部分/任何内容
(当.*?匹配到Hello后面的空白字符时,往后字符是数字而 (\d+)正好匹配,结合.*?少匹配的特性,到数字就不再匹配交由后边的元字符去匹配,因此是显示123)
import re
str = 'Hello 123 abc Hello_World nice'
result = re.match('^H.*?(\d+).*nice$', str)
print(result.group())
print(result.group(1))
四、正则表达式函数
4.1 match()
4.1.1 介绍
向该方法传入要匹配的字符串以及正则表达式,就可以匹配出这个正则表达式是否匹配字符串。该方法会从字符串开头匹配正则,匹配成功后返回结果,不匹配返回None。
缺点:需要开头匹配,如不匹配整个匹配就失败了,更适用于检测某个字符串是否符合某个正则表达式的规则。
4.1.2 示例
(使用正则匹配字符串中某段内容)
import re
str = 'Hello 123 abc Hello_World nice'
print(len(str))
# ^:匹配字符串开头; \s:匹配空白字符; \d\d\d:匹配三个数字字符; \w{3}:匹配三个数字/字母或者下划线
result = re.match('^Hello\s\d\d\d\s\w{3}', str)
print(result)
# 输出匹配内容
print(result.group())
# 输出匹配的范围
print(result.span())
4.2 search()
4.2.1 介绍
匹配时扫描整个字符串,然后返回第一个成功匹配的结果,如果搜索完了还没找到才返回None
4.2.2 示例
例1
如下方开头内容不为H即报错
(使用search()方法匹配整个字符串第一部分)
import re
str = 'Hello 123 abc Hello_World nice'
result = re.search('e.*(\d+).*', str)
print(result.group())
例2
(提取下方歌手和歌曲名)
import re
str = '''<dl>
<dt><a href="zhuanjilist/eounc.shtml" target="_blank"><img src="http://pic.yue365.com/4486/90723_100.jpg" border="0" alt="如约而至" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eounc.shtml" title="如约而至">如约而至</a></dd>
<dd><a href="/gequ/ssvi.shtml">许嵩</a></dd>
</dl>
<dl>
<dt><a href="zhuanjilist/eociv.shtml" target="_blank"><img src="http://pic.yue365.com/951/90368_100.jpg" border="0" alt="那是你离开了北京的生活" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eociv.shtml" title="那是你离开了北京">那是你离开了北京的生活</a></dd>
<dd><a href="/gequ/ewm.shtml">薛之谦</a></dd>
</dl>'''
# 代码有换行,.不匹配换行需要引入模式修饰符re.S
result = re.search('<dl>.*?title="(.*?)">.*?">(.*?)<', str, re.S)
if result:
print(result.group(2), result.group(1))
else:
print("匹配失败!")
Tips:
图下:
1处需要使用非贪婪模式,贪婪模式会匹配到薛之谦;
2处需要指定一个结尾,否则非贪婪模式下不匹配后边内容;
search()方法会返回第一个符合条件的匹配目标,因此这里是许嵩
4.3 findall()
4.3.1 介绍
获取匹配正则表达式的所有内容。搜索整个字符串,返回匹配正则的所有内容。
Tips:
- 如果使用print(result)则返回正则(.*?)中匹配的内容;
- 这里要注意和search()的区别:
search需要使用group()方法对元字符中的内容进行提取,而findall()使用索引即可对返回元组中的数据进行提取
4.3.2 举例
(返回匹配的所有歌手和歌名)
import re
str = '''<dl>
<dt><a href="zhuanjilist/eounc.shtml" target="_blank"><img src="http://pic.yue365.com/4486/90723_100.jpg" border="0" alt="如约而至" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eounc.shtml" title="如约而至">如约而至</a></dd>
<dd><a href="/gequ/ssvi.shtml">许嵩</a></dd>
</dl>
<dl>
<dt><a href="zhuanjilist/eociv.shtml" target="_blank"><img src="http://pic.yue365.com/951/90368_100.jpg" border="0" alt="那是你离开了北京的生活" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eociv.shtml" title="那是你离开了北京">那是你离开了北京的生活</a></dd>
<dd><a href="/gequ/ewm.shtml">薛之谦</a></dd>
</dl>'''
result = re.findall('<dl>.*?title="(.*?)">.*?">(.*?)<', str, re.S)
if result:
print(result)
print(type(result))
print(result[0], "\n", result[1])
else:
print("匹配失败!")
(返回一个列表,我们可以通过索引取出数据)
4.4 sub()
4.4.1 介绍
替换目标字符串
re.sub(pattern,repl,string,count=0)
–patten 规则
–repl 替换的字符
–string 原始字符串
–count 模式匹配后替换的最大次数,默认0表示替换所有匹配的值
4.4.2 举例
例1
将字符串中所有数字去掉
import re
str = 'S12324sdfswtwrs523426dsfk8'
result = re.sub('\d+', '' , str)
print(result)
第一个参数:传入匹配所有的数字
第二个参数:传入替换的字符串(这里是空)
第三个参数:原字符串
例2
“删减旧繁“,简化目标字符串(如删除HTML中不用的节点)
import re
str = '''<dl>
<dt><a href="zhuanjilist/eounc.shtml" target="_blank"><img src="http://pic.yue365.com/4486/90723_100.jpg" border="0" alt="如约而至" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eounc.shtml" title="如约而至">如约而至</a></dd>
<dd><a href="/gequ/ssvi.shtml">许嵩</a></dd>
</dl>
<dl>
<dt><a href="zhuanjilist/eociv.shtml" target="_blank"><img src="http://pic.yue365.com/951/90368_100.jpg" border="0" alt="那是你离开了北京的生活" width="80" height="80"></a></dt>
<dd><a href="/zhuanjilist/eociv.shtml" title="那是你离开了北京">那是你离开了北京的生活</a></dd>
<dd><a href="/gequ/ewm.shtml">薛之谦</a></dd>
</dl>'''
# 先删除无用的<dt>节点
html = re.sub('<dt.*?/dt>', '', str)
print(html)
print('-------------------------------------------')
# 再次删除<a>节点,保留歌手和歌曲名
html = re.sub('<a.*?>|</a>', '', html)
print(html)
(删除无用的节点如红框中所致,保留内容如绿框中所致)
4.5 compile()
4.5.1 介绍
将字符串编译成正则表达式对象。
4.5.2 举例
去掉三个日期中的时间,当有多个同类型目标要处理时可以使用compile()方法将正则表达式编译成一个对象来重复使用
import re
date1 = '2020-02-14 12:00'
date2 = '2020-05-20 13:00'
date3 = '2020-07-07 14:00'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern , '' , date1)
result2 = re.sub(pattern , '' , date2)
result3 = re.sub(pattern , '' , date3)
print(result1, result2, result3)
五、其它技巧
5.1 模式修正符
不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现匹配结果的调整
- I:匹配时忽略大小写
- M:多行匹配
- L:本地化识别匹配
- S:让 " . " 匹配换行符(在网页匹配中经常用到,因为HTML中经常有换行)
(举例1:匹配忽略大小写)
import re
str = "asdggepythoneee212ggghjkk"
pat = "Python"
result = re.search(pat,str,re.I)
print(result)
(举例2:使 . 匹配换行符)
5.2 转义匹配
反斜杠(\) 转义字符串中的元字符,使得字符串就是字符串