Python 网络爬虫（第二部分）：使用 Beautiful Soup 解析 HTML

dataschool

于 2024-08-20 15:18:51 发布

阅读量271

点赞数 3

文章标签： beautifulsoup python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dataschool/article/details/141359687

版权

本教程是四部分系列的第二部分，教你如何利用网页抓取技术从纽约时报一篇关于特朗普总统的文章中构建数据集。本部分将利用之前观察到的文章格式模式，开始构建数据集。

首先，使用 requests 库将文章的 HTML 代码读取到 Python 中。如果没有安装 requests 库，可以使用命令行 pip install requests 安装。代码将从 URL 获取网页并将其存储在名为 R 的响应对象中。该对象包含一个 text 属性，其中包含与在网页浏览器中查看源代码时看到的相同 HTML 代码。

接下来，使用 BeautifulSoup4 库解析 HTML 代码。这是一个流行的 Python 网页抓取库。如果没有安装，可以使用命令行 pip install beautifulsoup4 安装。代码将解析存储在 text 属性中的 HTML 代码，并将其转换为一个名为 soup 的特殊对象，BeautifulSoup 库可以理解该对象。

然后，开始利用观察到的文章格式模式构建数据集。观察文章和 HTML 代码，可以发现每个记录都具有以下格式：

span 标签（类名为 short desk）
strong 标签
日期
关闭 strong 标签
span 标签（类名为 short truth）
a 标签（链接到 URL）
解释
关闭 a 标签
关闭 span 标签
关闭 span 标签

这种一致的标签格式使得我们可以使用 BeautifulSoup 库查找所有记录。代码使用 find_all 方法搜索 soup 对象中所有具有类名为 short desk 的 span 标签，这些标签出现在每个记录之前。

本部分主要介绍如何使用 requests 和 BeautifulSoup 库读取和解析 HTML 代码，并利用文章的格式模式开始构建数据集。接下来的部分将进一步介绍如何提取数据并将其存储到数据集中。

这是网络爬虫入门教程的第二部分。在本视频中，我们将使用 Python 读取一篇纽约时报文章，然后使用 Beautiful Soup 库根据文章格式的模式解析 HTML。

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

dataschool 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。