【python爬虫专项（6）】网页标签解析（文档树输出、搜索及遍历）

本文链接：https://blog.csdn.net/lys_828/article/details/104206879

本文详细介绍了BeautifulSoup库的基本操作，包括文档树的格式化输出、HTML元素的识别方法、文档树的搜索技巧以及如何遍历文档树。通过具体案例，如豆瓣读书网页的数据抓取，展示了find()和find_all()等核心方法的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 文档树格式化输出soup.prettify()

还是以官方的示例代码为例，首先进行变量定义，然后再进行代码解析，html案例代码如下

"""<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;and they lived at the bottom of a well.</p><p class="story">...</p>"""

代码运行时在spyder里面的Ipython界面进行
在这里插入图片描述
进行文档树格式化输出，前面博客有提到过，soup.prettify()方法是将代码以Unicode编码输出,每个XML/HTML标签都独占一行

2. HTML的3个基本要素识别：标签、属性、元素

2.1 标签

● soup.标签名

● 首先要知道有这样找到标签的方法
● 后续主要用.find() / .find_all()来寻找

● soup.标签名.name ：返回该标签的名字

● 示例
在这里插入图片描述

2.2 属性

● soup.标签名.attrs
●返回属性，对象类型为字典

● soup.标签名[‘属性名’]
●返回该标签的某属性

● 示例
在这里插入图片描述

2.3 元素

● soup.标签名.text
●直接输出字符串str

● soup.标签名.text 与 soup.标签名.string → 建议选择前者，按照下面的案例代码进行讲解

'''<html><td>some text</td> <td></td><td><p>more text</p></td><td>even <p>more text</p></td></html>'''

针对同一个案例代码，使用soup.标签名.text 与 soup.标签名.string 方法，输出结果如下
在这里插入图片描述
从上面的输出可以看出，td标签里面没有内容时候，.text返回是空，但是.string返回的是None，还有最重要的一点是，如果td标签里面含有子节点的时候，这里面还有内容时，两者的使用区别就显示出来了，对比上面的最后的输出（一个为None，一个将td里面的所有文字内容全部输出），原因在于如果标签包含了多个子节点时，.string 方法无法确定应该调用哪个子节点的内容, 输出结果有可能是 None

3. 搜索文档树

核心方法是：find() 和 find_all()，这里以下面的代码作为案例

"""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

3.1 find(name , attrs, …)

● 寻找标签（如果只有一个标签可以使用.find(),如果是多个就是下面要介绍的方法）

● 可以通过属性寻找
●注意：由于class在Python中是内置语句，所以class的属性应该加下划线：class_

● 可以通过.text直接输出元素

● 示例
在这里插入图片描述

3.2 find_all( name , attrs , …)

● 寻找所有tag子节点标签

● 可以寻找多个标签

● 示例
在这里插入图片描述
● 寻找多标签某一标签下的文本数据
●可以采用下标的方式进行，如下

3.3 实例讲解（豆瓣读书网址为例）

豆瓣读书，网页如下
在这里插入图片描述
首先获取网页信息并解析网页（注意返回的r，要以r.text的形式输入到BeautifulSoup()中）

找一下页标题，一般是只有一个，可以直接使用soup.title

通过检查，进行信息标签查找，可以发现，所有书的相关内容都是在一个大的标签【div class=‘article’】里面，而且，所有具体的书的信息都是在【ul class=‘subject-list’】标签下面，单个书的信息都在【li class=‘subject-item’】内
在这里插入图片描述
因此获得单本书所在的标签或者内容，代码实现如下

ul = soup.find('ul', class_ = 'subject-list')
lis = ul.find_all('li')

至此就可以获得每本书对应的标签信息，比如输出第一个标签信息
在这里插入图片描述
比如要获得小王子这本书的url，就可以使用如下代码

如果要获取小王子这本书的简介内容，可以使用如下代码

还有其他的一些内容可以获取，这里就介绍到这里

4. 遍历文档树

4.1 节点关系

● 子（Children）：一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点

● 父（Parent）：每个Tag或字符串都有父节点

● 兄弟（Sibling）：同一个元素的子节点可以成为兄弟节点

● 示例
在这里插入图片描述
这里还是以官方的代码作为示例

"""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""