【Python网络爬虫笔记】BeautifulSoup模块基础

最新推荐文章于 2024-10-03 09:02:12 发布

CCH²¹

最新推荐文章于 2024-10-03 09:02:12 发布

阅读量234

点赞数 1

分类专栏： Python网络爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_45554010/article/details/105077914

版权

5 篇文章 2 订阅

订阅专栏

和requests模块一样，如果使用Anaconda 3的话，是自带BeautifulSoup模块的。如果没有BeautifulSoup模块的话，只需要以管理员身份打开cmd，输入命令pip install beautifulsoup4即可安装。

BeautifulSoup是解析、遍历、维护“标签树”的功能库。
在这里插入图片描述
要想引用BeautifulSoup模块，我们需要以下面的语句来导入：

from bs4 import BeautifulSoup
import bs4

即主要是用BeautifulSoup类。
在这里插入图片描述
下表是对BeautifulSoup库解析器的说明：

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk, ‘html.parser’)	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk, ‘lxml’)	pip install lxml
lxml的XML解析器	BeautifulSoup(mk, ‘xml’)	pip install lxml
html5lib的解析器	BeautifulSoup(mk, ‘html5lib’)	pip install html5lib

下面来简单说明BeautifulSoup类的基本元素：

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾
Name	标签的名字，<p>…</p>的名字是“p”，格式：<tag>.name
Attributes	标签的属性，字典形式组织，格式：<tag>.attrs
NavigableString	标签内非属性字符串，<>…</>中字符串，格式：<tag>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

在这里插入图片描述

HTML的基本格式是：<>…</>构成了所属关系，形成了标签的树形结构，如下图所示：
在这里插入图片描述
对标签树的遍历可以分为三种：下行遍历、上行遍历和平行遍历。

标签树的下行遍历

属性	说明
.contents	子节点的列表，将<tag>所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

BeautifulSoup类型是标签树的根节点。

标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

标签树的平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

在这里插入图片描述