上一篇文章介绍了 BeautifulSoup 的安装以及基本对象类型。
本次介绍使用 bs4 对 HTML 文档树的遍历。
先把本文用到的例子贴上:
str = """
<!DOCTYPE html>
<html>
<head><title>bs4 test</title></head>
<body>
<h1>bs4 test</h1>
<div>
<ul>
<li><a>PHP</a></li>
<li><a>Python</a></li>
<li><a>Golang</a></li>
</ul>
</div>
<p><span>a</span><i>b</i><em></em></p>
</body>
</html>
"""
文档树的遍历:
文档树的遍历包括以下四部分:
- 子节点
- 父节点
- 兄弟节点
- 回退和前进
一、子节点
一个标签可能包含多个字符串或者其他标签,这些标签都属于子节点。要获取子节点,首先需要得到一个 Tag 对象:
获取一个 Tag 对象最简单的方式是用 bs4 对象点上要获取的标签的名字,同时支持链式调用。<