Python 网络爬虫(第二部分):使用 Beautiful Soup 解析 HTML

本教程是四部分系列的第二部分,教你如何利用网页抓取技术从纽约时报一篇关于特朗普总统的文章中构建数据集。本部分将利用之前观察到的文章格式模式,开始构建数据集。

首先,使用 requests 库将文章的 HTML 代码读取到 Python 中。如果没有安装 requests 库,可以使用命令行 pip install requests 安装。代码将从 URL 获取网页并将其存储在名为 R 的响应对象中。该对象包含一个 text 属性,其中包含与在网页浏览器中查看源代码时看到的相同 HTML 代码。

接下来,使用 BeautifulSoup4 库解析 HTML 代码。这是一个流行的 Python 网页抓取库。如果没有安装,可以使用命令行 pip install beautifulsoup4 安装。代码将解析存储在 text 属性中的 HTML 代码,并将其转换为一个名为 soup 的特殊对象,BeautifulSoup 库可以理解该对象。

然后,开始利用观察到的文章格式模式构建数据集。观察文章和 HTML 代码,可以发现每个记录都具有以下格式:

  • span 标签(类名为 short desk
  • strong 标签
  • 日期
  • 关闭 strong 标签
  • span 标签(类名为 short truth
  • a 标签(链接到 URL)
  • 解释
  • 关闭 a 标签
  • 关闭 span 标签
  • 关闭 span 标签

这种一致的标签格式使得我们可以使用 BeautifulSoup 库查找所有记录。代码使用 find_all 方法搜索 soup 对象中所有具有类名为 short deskspan 标签,这些标签出现在每个记录之前。

本部分主要介绍如何使用 requestsBeautifulSoup 库读取和解析 HTML 代码,并利用文章的格式模式开始构建数据集。接下来的部分将进一步介绍如何提取数据并将其存储到数据集中。

这是网络爬虫入门教程的第二部分。 在本视频中,我们将使用 Python 读取一篇纽约时报文章,然后使用 Beautiful Soup 库根据文章格式的模式解析 HTML。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dataschool

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值