Beautiful Soup入门
1. Beautiful Soup是什么
Beautiful Soup库是解析、遍历、维护“标签树”的功能库。Beautiful Soup库,也叫beautifulsoup4 或 bs4。
2. Beautiful Soup类的基本元素
下面由一个例子来对以上Beautiful Soup库的5个基本元素进行介绍。
利用requests库获取demo.html的源代码,获取代码如下:
得到demo.html源代码:
2.1 Tag标签
代码案例如下:
输出结果如下,第一行输出title标签,第二行输出a标签:
2.2 Tag的name(名字)
2.3 Tag的attrs(属性)
代码案例如下:
输出结果如下,一个<tag>可以有0或多个属性,字典类型:
2.4 Tag的NavigableString
2.5 Tag的comment(Comment是一种特殊类型)
3.基于bs4库的HTML内容遍历方法
3.1 HTML基本格式
3.2 HTML内容的三种遍历方式
3.2.1 标签树的下行遍历
代码示例如下:
3.2.2 标签树的上行遍历
3.2.3 标签树的平行遍历
平行遍历发生在同一个父节点下的各节点间,下面是图解:
4.基于bs4库的HTML格式输出
bs4库的prettify()方法可以让HTML内容更加“友好”的显示。.prettify() 为HTML文本<>及其内容增加更加'\n' .prettify()可用于标签,方法:.prettify()
下面是代码演示: