python提取类型值_入门Python爬虫——提取数据篇

最新推荐文章于 2022-03-09 15:16:27 发布

weixin_39811101

最新推荐文章于 2022-03-09 15:16:27 发布

阅读量178

点赞数

文章标签： python提取类型值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39811101/article/details/111432716

版权

本文深入探讨Python爬虫如何通过BeautifulSoup库提取数据，重点介绍find()和find_all()方法。find()用于获取首个匹配的数据，find_all()则能提取所有匹配项。提取的数据可能是Tag或ResultSet类型，可以通过相应方法获取文本或属性值。

摘要由CSDN通过智能技术生成

原标题：入门Python爬虫——提取数据篇

作者：李菲来源：人工智能学习圈

前言

在提取数据这一环节，爬虫程序会将我们所需要的数据提取出来。在上一篇文章《入门Python爬虫 -- 解析数据篇》中，我们已经了解过了解析数据的要点。而今天的内容，主要会在此基础上进一步提取出我们认为有价值的信息。

提取数据知识点

在提取数据的过程中，我们依旧会用到熟悉的BeautifulSoup库。下面我会介绍一下其中比较常用的两个方法：find()以及find_all()。

find()：提取首个符合要求的数据。

用法：bs对象.find(标签,属性)

备注：此处的bs对象为解析过后的数据。标签和属性在这里用于定位指定HTML源代码所在的位置。让我们做一个简单的回顾：标签是被<>括住的内容，例：

，。元素为一对标签中所涵盖的全部内容，例：网页体内容。属性则为定义了一个元素的内容，常见的属性有：href='https:www.example.com'(定义了一个链接)；class="example"(定义了一个类)；等等。

find_all()：提取所有符合要求的数据。

用法：bs对象.find_all(标签,属性)

备注：上述的bs对象、标签以及属性的用法与find()一致。不过，由find_all()提取出的数据类型会与find()不同。由find()方法提取出的数据类型一般为Tag，而find_all提取出的数据类型则为ResultSet。遇到类型为Tag的数据，我们可以通过Tag.text()的方式进一步提取其中纯文本格式的内容，以及Tag['属性名']的方式提取特定属性的值。而遇到类型为ResultSet的数据，我么则可以通过遍历的方式进一步提取出所有符合要求的数据。

总结

原文链接:https://zhuanlan.zhihu.com/p/150387648返回搜狐，查看更多

责任编辑：

weixin_39811101

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。