python3爬虫学习笔记之正则表达式（三）

最新推荐文章于 2022-01-06 23:20:49 发布

不吃鱼的猫~

最新推荐文章于 2022-01-06 23:20:49 发布

阅读量185

点赞数

分类专栏： python3爬虫代码

本文链接：https://blog.csdn.net/u012433049/article/details/100769971

版权

代码同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

python3爬虫

10 篇文章 0 订阅

订阅专栏

通过前面章节的学习，我们可通过请求库向服务器发出请求，然后服务器返回结果，其中包含网页源码，那么怎么将这些源码解析为我们需要的形式，一种方式就是通过正则表达式来匹配得到。

正则表达式是处理字符串的强大工具，有了它，实现字符串的检索、替换、匹配验证都不在话下。

常用匹配规则

模式	描述
\w	匹配字母、数字和下划线
\W	匹配不是字母、数字及下划线的字符
\s	匹配任意空白字符，等价于[\t\n\t\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结尾，如果存在换行，同时还会匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一行字符串的开头
$	匹配一行字符串的结尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
[...]	用来表示一组字符，单独列出，比如[amk]匹配a、m、k
[^...]	不在[]中的字符，比如[^amk]匹配除了a、m、k之外的字符
*	匹配0个或多个表达式
+	匹配1个或多个表达式
?	匹配0个或1个前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配n个前面的表达式
{n,m}	匹配n到m次由前面正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
()	匹配括号内的表达式，也表示一个组

常用匹配方法

match()

向他传入要匹配的字符串以及正则表达式，可以检测这个正则表达式是否匹配这个字符串。

match( )方法会尝试从字符串的起始位置匹配正则表达式，如果匹配就返回成功的结果，否则返回None。

栗子1：

import re
content = 'Hello 123 4567 World_this isa Regex Demo'
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result)
print(result.group())
print(result.span())

运行结果如下：

栗子2：匹配目标，提取一部分

可以使用( )括号将想提取的子串括起来。

import re
content = 'Hello 1234567 World_this isa Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

运行结果如下：

栗子3：通用匹配.*

．（点）可以匹配任意字符（除换行符），*（星）代表匹配前面的字符无限次，所以它们组合再一起就可以匹配任意字符。

import re
content = 'Hello 123 4567 World_this isa Regex Demo'
result = re.match('^Hello.*Demo$',content)
print(result)
print(result.group())
print(result.span())

运行结果如下：

栗子4：贪婪与非贪婪

使用通配符时，可能有时候匹配到的并不是我们想要的结果。

import re
content = 'Hello 1234567 World_this isa Regex Demo'
result = re.match('^Hello.*(\d+)Demo$',content)
print(result)
print(result.group(1))

运行结果如下：

只得到了7一个数字，？这里涉及贪婪与非贪婪问题，在贪婪匹配下，.*会匹配尽可能多的字符。.*后面时\d+，也就是至少一个数字，并没有具体几个，因此，.*尽可能匹配多的字符，这里就把123456都匹配了，给\d+只留下了数字7，最后得到的就是7了。

非贪婪匹配写法为：.*?

import re
content = 'Hello 1234567 World_this isa Regex Demo'
result = re.match('^Hello.*？(\d+)Demo$',content)
print(result)
print(result.group(1))

运行结果如下：

非贪婪方法匹配尽可能少的字符，当匹配到hello后面的空格字符之后，就不在进行匹配，交给\d+后后面的数字就是1234567了。

栗子5：修饰符

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。如下：

import re
content ="""Hello 1234567 World_this
isa Regex Demo"""
result = re.match('^Hello.*(\d+)Demo$',content)
print(result.group(1))

运行结果如下：

运行报错，正则表达式没有匹配到这个字符串，返回结果为None。这是因为.*?不匹配换行符，只要加一个re.S修饰符就行了。

import re
content ="""Hello 1234567 World_this
isa Regex Demo"""
result = re.match('^Hello.*(\d+)Demo$',content,re.S)
print(result.group(1))

一些其他修饰符

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响^和$
re.S	使.匹配包含换行符在内的所有字符
re.U	根据Unicode字符集解析字符。
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

栗子5：转义匹配

\进行转义：

import re
content ="""(百度)www.baidu.com"""
result = re.match('\(百度\)www\.baidu\.com',content)
print(result)

运行结果如下：

2. search( )

match( )方法是从字符串开头匹配的，一旦开头不匹配，那么整个匹配都不成功。search( )方法会扫描整个字符串，然后返回第一个匹配的结果。

3. findall( )

search( )只能返回一个匹配结果，findall( )将返回所有匹配结果。

html ="""
<div id="song-list">
    <h2 class="title">经典老歌</h2>
    <p class="inrtoduction">
    经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-veiw="7">
            <a href="2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-veiw="5">
            <a href="6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>
"""

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0],result[1],result[2])

运行结果如下：