Beautiful Soup库——HTML/XML页面解析

最新推荐文章于 2024-08-22 12:41:20 发布

L_xiao_jie

最新推荐文章于 2024-08-22 12:41:20 发布

阅读量570

点赞数

分类专栏： python3网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L_xiao_jie/article/details/104253806

版权

python3网络爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、Beautiful Soup库的安装和导入

	————Beautiful Soup库是解析、遍历、维护“标签树”的功能库

安装：
Win平台: “以管理员身份运行”cmd 执行pip install beautifulsoup4
模块导入
Beautiful Soup库，也叫beautifulsoup4 或bs4
约定引用方式如下，即主要是用BeautifulSoup类


from bs4 import BeautifulSoup 引入bs4库的BeautifulSoup类功能模块

import bs4		引入整个bs4库

二、BeautifulSoup类解析基本原理

在这里插入图片描述
通过解析器，解析HTML/XML的标签树，从而取得想要的信息。
解析器：

三、BeautifulSoup类的基本元素

在这里插入图片描述

四、基于bs4库的HTML内容遍历方法（调用方式：soup.标签.属性）

在这里插入图片描述

标签树的下行遍历

在这里插入图片描述

遍历儿子节点
for	child in soup.body.children:
	print(child)
	
遍历子孙节点
for	child in soup.body.descendants:
	print(child)

标签树的上行遍历

在这里插入图片描述

注意：
在这里插入图片描述
3.标签树的平行遍历

注意：

五、基于bs4库的HTML格式输出

bs4库的prettify()方法（调用方式：soup.prettify()）
bs4库的编码

六、bs4库提供的查找方法

<>.find_all(name,attrs,recursive, string, **kwargs)

name : 对标签名称的检索字符串
attrs: 对标签属性值的检索字符串，可标注属性检索
如: id="", class=""
recursive: 是否对子孙全部检索，默认True
string: <>…</>中字符串区域的检索字符串
返回一个列表类型，存储查找的结果

注意:因为查找函数较常用，故:
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。