爬虫：BeautifulSoup4库基础

最新推荐文章于 2023-11-02 10:34:16 发布

爱喝胡辣汤c

最新推荐文章于 2023-11-02 10:34:16 发布

阅读量569

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_44744724/article/details/108144699

版权

9 篇文章 0 订阅

订阅专栏

1.BeautifulSoup库的安装

使用pip方法安装：打开cmd面板
在这里插入图片描述

在这里插入图片描述
使用BeautifulSoup库块解析HTML

在这里插入图片描述

使用BeautifulSoup库只需要两行代码

from bs4 improt BeautifulSoup4
soup = BeautifulSoup("<p>data</p>", "html.parser")

BeautifulSoup库是解析、遍历、维护“标签树”的功能库。

在这里插入图片描述

解析器	使用方法	条件
bs4的HTML解析器	`BeautifulSoup(mk, 'html.parser')`	安装bs4库
lxml的HTML解析器	`BeautifulSoup(mk, 'lxml')`	pip install lxml
lxml的XML解析器	`BeautifulSoup(mk, 'xml')`	pip install lxml
html5lib	`BeautifulSoup(mk, 'html5lib')`	pip install html5lib

基本元素	说明
Tag	标签，最基本的信息组织元素，分别用<>和</> 标明开头和结尾
Name	标签的名字，`<p>...</p>` 的名字是“`p`”，格式`<tag>.name`
Attributes	标签的属性，字典形式组织，格式：`<tag>.attrs`
NavigableString	标签内非属性字符串，`<><\>`中字符串，格式：`<tag>.string`
Comment	标签内字符串的注释部分，一种特殊的`Comment`类型

在这里插入图片描述

属性	说明
.contents	子节点的列表，将`<tag>` 所有儿子结点存入列表
.children	子节点的迭代类型，与`.contents`类似，用于循坏遍历儿子结点
.descendants	子孙结点的迭代类型，包含素有子孙结点，用于循环遍历

实例
在这里插入图片描述