本教程是四部分系列的第二部分,教你如何利用网页抓取技术从纽约时报一篇关于特朗普总统的文章中构建数据集。本部分将利用之前观察到的文章格式模式,开始构建数据集。
首先,使用 requests
库将文章的 HTML 代码读取到 Python 中。如果没有安装 requests
库,可以使用命令行 pip install requests
安装。代码将从 URL 获取网页并将其存储在名为 R
的响应对象中。该对象包含一个 text
属性,其中包含与在网页浏览器中查看源代码时看到的相同 HTML 代码。
接下来,使用 BeautifulSoup4
库解析 HTML 代码。这是一个流行的 Python 网页抓取库。如果没有安装,可以使用命令行 pip install beautifulsoup4
安装。代码将解析存储在 text
属性中的 HTML 代码,并将其转换为一个名为 soup
的特殊对象,BeautifulSoup
库可以理解该对象。
然后,开始利用观察到的文章格式模式构建数据集。观察文章和 HTML 代码,可以发现每个记录都具有以下格式:
span
标签(类名为short desk
)strong
标签- 日期
- 关闭
strong
标签 span
标签(类名为short truth
)a
标签(链接到 URL)- 解释
- 关闭
a
标签 - 关闭
span
标签 - 关闭
span
标签
这种一致的标签格式使得我们可以使用 BeautifulSoup
库查找所有记录。代码使用 find_all
方法搜索 soup
对象中所有具有类名为 short desk
的 span
标签,这些标签出现在每个记录之前。
本部分主要介绍如何使用 requests
和 BeautifulSoup
库读取和解析 HTML 代码,并利用文章的格式模式开始构建数据集。接下来的部分将进一步介绍如何提取数据并将其存储到数据集中。
这是网络爬虫入门教程的第二部分。 在本视频中,我们将使用 Python 读取一篇纽约时报文章,然后使用 Beautiful Soup 库根据文章格式的模式解析 HTML。