Python 中的 Beautiful Soup 库可以很方便的从网页中提取 HTML 内容。
今天我们将讨论如何使用 美丽的汤 库从 HTML 页面中提取内容,之后,我们将使用它将其转换为 Python 列表或字典。
什么是 Web 刮取,为什么我需要它?
答案很简单:并非每个网站都有获取内容的 API。你可能想从你最喜欢的烹饪网站上获取食谱,或者从旅游博客上获取照片。如果没有 API,提取 HTML(或者说刮取刮削可能是获取内容的唯一方法。我将向你展示如何使用 Python 来获取。
并非所以网站都喜欢被刮取,有些网站可能会明确禁止。请于网站所有者确认是否同意刮取。
Python 如何刮取网站?
使用 Python 进行刮取,我们将执行三个基本步骤:
<span style="color:#444444"><span style="background-color:#f6f6f6"><span style="color:#333333"><strong>requests</strong></span>
</span></span>
安装库
首先安装我们需要的库。 库从网站获取 HTML 内容,Beautiful Soup 解析 HTML 并将其转换为 Python 对象。在 Python3 中安装它们,运行:requests
<span style="color:#444444"><span style="background-color:#f6f6f6"><span style="color:#333333"><strong>pip3</strong></span> install requests beautifulsoup4
</span></span>
提取 HTML
在本例中,我将选择刮取网站的Techhology部分。如果你跳转到此页面,你会看到带有标题、摘录和发布日期的文章列表。我们的目标是创建一个包含这些信息的文章列表。
网站页面的完整 URL 是:
<span style="color:#444444"><span style="background-color:#