python爬虫数据提取_入门Python爬虫——提取数据篇

最新推荐文章于 2024-03-15 17:00:00 发布

weixin_39753213

最新推荐文章于 2024-03-15 17:00:00 发布

阅读量271

点赞数

文章标签： python爬虫数据提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39753213/article/details/113984642

版权

原标题：入门Python爬虫——提取数据篇

作者：李菲来源：人工智能学习圈

前言

在提取数据这一环节，爬虫程序会将我们所需要的数据提取出来。在上一篇文章《入门Python爬虫 -- 解析数据篇》中，我们已经了解过了解析数据的要点。而今天的内容，主要会在此基础上进一步提取出我们认为有价值的信息。

提取数据知识点

在提取数据的过程中，我们依旧会用到熟悉的BeautifulSoup库。下面我会介绍一下其中比较常用的两个方法：find()以及find_all()。

find()：提取首个符合要求的数据。

用法：bs对象.find(标签,属性)

备注：此处的bs对象为解析过后的数据。标签和属性在这里用于定位指定HTML源代码所在的位置。让我们做一个简单的回顾：标签是被<>括住的内容，例：

，。元素为一对标签中所涵盖的全部内容，例：网页体内容。属性则为定义了一个元素的内容，常见的属性有：href='https:www.example.com'(定义了一个链接)；class="example"(定义了一个类)；等等。

find_all()：提取所有符合要求的数据。

用法：bs对象.find_all(标签,属性)

备注：上述的bs对象、标签以及属性的用法与find()一致。不过，由find_all()提取出的数据类型会与find()不同。由find()方法提取出的数据类型一般为Tag，而find_all提取出的数据类型则为ResultSet。遇到类型为Tag的数据，我们可以通过Tag.text()的方式进一步提取其中纯文本格式的内容，以及Tag['属性名']的方式提取特定属性的值。而遇到类型为ResultSet的数据，我么则可以通过遍历的方式进一步提取出所有符合要求的数据。

总结

原文链接:https://zhuanlan.zhihu.com/p/150387648返回搜狐，查看更多

责任编辑：

weixin_39753213

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。