python之BeautifulSoup4模块

最新推荐文章于 2024-08-06 23:23:32 发布

开水好喝

最新推荐文章于 2024-08-06 23:23:32 发布

阅读量697

点赞数

分类专栏： python教程文章标签： BS4 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010378984/article/details/82753617

版权

BeautifulSoup是用于HTML/XML数据解析的库，尤其在数据筛选需求不高的项目中广泛应用。本文介绍了BeautifulSoup4（BS4）的基本概念、安装方法及常见用法，包括获取对象和搜索方法。在搜索方法中，详细讲解了find_all和find方法的参数和用法。

摘要由CSDN通过智能技术生成

目录

概述

BeautifulSoup是一种专门用于进行HTML/XML数据解析的一种描述语言，可以很好的分析和筛选HTML/XML这样的标记文档中的指定规则数据。在数据筛选过程中其基础技术是通过封装HTML DOM树实现的一种DOM操作，通过加载网页文档对象的形式，从文档对象树模型中获取目标数据。
BeautifulSoup操作简单易于上手，在很多对于数据筛选性能要求并不是特别苛刻的项目中经常使用，目前市场流行的操作版本是BeautifulSoup4，经常称BS4。

Xpath和BeautifulSoup都是基于DOM的一种操作模式。不同点在于加载文档对象模型DOM时出现的文档节点遍历查询操作过程，Xpath在进行遍历操作时针对描述语言指定的语法结构进行局部DOM对象树的遍历得到具体的数据，但是BS4在操作过程中，会将整个文档树进行加载然后进行查询匹配操作，使用过程中消耗资源较多，处理性能相对Xpath较低，但优势在于足够简单。

安装模块

pip install beautifulsoup4

è¿éåå¾çæè¿°

常见用法

获得对象

一般BS4将HTML文档对象会转换成如下四种类型组合的文档树：
* Tag：标签对象

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。