Python 美丽的汤 刮取简易指南

本文介绍了Python中使用BeautifulSoup库进行Web刮取的基本步骤,包括安装库、提取HTML以及从HTML中提取内容。讲解了如何从特定网站的Technology部分获取文章的标题、摘录和发布日期,强调了在刮取前需确认网站允许。
摘要由CSDN通过智能技术生成

Python 中的 Beautiful Soup 库可以很方便的从网页中提取 HTML 内容。

今天我们将讨论如何使用 美丽的汤 库从 HTML 页面中提取内容,之后,我们将使用它将其转换为 Python 列表或字典。

什么是 Web 刮取,为什么我需要它?

答案很简单:并非每个网站都有获取内容的 API。你可能想从你最喜欢的烹饪网站上获取食谱,或者从旅游博客上获取照片。如果没有 API,提取 HTML(或者说刮取刮削可能是获取内容的唯一方法。我将向你展示如何使用 Python 来获取。

并非所以网站都喜欢被刮取,有些网站可能会明确禁止。请于网站所有者确认是否同意刮取。

Python 如何刮取网站?

使用 Python 进行刮取,我们将执行三个基本步骤:

<span style="color:#444444"><span style="background-color:#f6f6f6"><span style="color:#333333"><strong>requests</strong></span>
</span></span>

安装库

首先安装我们需要的库。 库从网站获取 HTML 内容,Beautiful Soup 解析 HTML 并将其转换为 Python 对象。在 Python3 中安装它们,运行:requests

<span style="color:#444444"><span style="background-color:#f6f6f6"><span style="color:#333333"><strong>pip3</strong></span> install requests beautifulsoup4
</span></span>

提取 HTML

在本例中,我将选择刮取网站的Techhology部分。如果你跳转到此页面,你会看到带有标题、摘录和发布日期的文章列表。我们的目标是创建一个包含这些信息的文章列表。

网站页面的完整 URL 是:

<span style="color:#444444"><span style="background-color:#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值