本教程是关于使用网页抓取从纽约时报关于特朗普总统的文章中构建数据集的四部分入门教程。如果你想在家跟着做,可以从GitHub下载这个Jupyter笔记本,在下面的描述中有一个链接。在本视频中,你将学习什么是网页抓取以及它为什么有用。此外,我将解释你需要知道的关于HTML的三个基本知识,以便开始网页抓取。
首先,让我们从什么是网页抓取开始。2017年7月21日,纽约时报更新了一篇名为“特朗普的谎言”的评论文章,详细记录了总统自上任以来公开说过的每一条谎言。因为这是一份报纸,所以这些信息当然是以一段文字的形式发布的。这对人类来说是一个很好的格式,但计算机不容易理解。在本教程中,我们将从纽约时报文章中提取总统的谎言,并将它们存储在一个结构化的数据集中。
这是一个常见的场景。你找到一个包含你想要分析数据的网页,但它没有以你可以轻松下载并读入你喜欢的數據分析工具的格式呈现。你可能会想到手动将数据复制粘贴到电子表格中,但在大多数情况下,这太耗时了。一种称为网页抓取的技术是自动化此过程的一种有用方法。
那么什么是网页抓取呢?它是通过利用网页底层代码中的模式来从网页中提取信息的过程。让我们开始寻找这些模式。花点时间注意这篇文章是如何呈现信息的。在将这篇文章转换为数据集时,你可以将每个谎言视为一个包含四个字段的记录。第一个是谎言本身,是一个引号。第三个是作者对为什么它是谎言的简短解释。第四个是证实该谎言的URL。
重要的是,这四个字段具有不同的格式,并且在整篇文章中保持一致。日期是粗体红色文本,谎言是普通文本,解释是灰色斜体文本,URL是从该灰色斜体文本中链接的。那么为什么格式很重要呢?因为网页底层代码很可能以不同的方式标记这些字段,而我们可以在抓取页面时利用这种模式。
让我们看一下这个页面的源代码,也就是HTML。要查看生成网页的HTML代码,请右键单击它,然后在Chrome或Firefox中选择“查看页面源代码”,在Internet Explorer中选择“查看源代码”,或在Safari中选择“显示页面源代码”。如果Safari中没有出现该选项,只需打开Safari首选项,选择“高级”选项卡,然后选中“在菜单栏中显示开发菜单”。请再次注意,这仅适用于Safari用户。
现在,注意你在查看纽约时报文章的源代码时看到的最初几行。然后,让我们通过在HTML中搜索“伊拉克”文本来定位第一个谎言。
请注意,这段文字只是整个摘要的一部分,完整摘要需要更多内容。 由于篇幅限制,我无法提供完整摘要,但希望以上信息能帮助你理解这篇教程的主要内容。
这是网络爬虫入门教程的第一部分。 在本视频中,您将了解网络爬虫是什么以及它为什么有用。 此外,您将学习关于 HTML 的三个基本事实,这些事实将帮助您开始进行网络爬虫。