Python 美丽的汤刮取简易指南

最新推荐文章于 2024-06-21 09:36:07 发布

Python_xiaowu

最新推荐文章于 2024-06-21 09:36:07 发布

阅读量453

点赞数 2

文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/Python_xiaowu/article/details/121983237

版权

本文介绍了Python中使用BeautifulSoup库进行Web刮取的基本步骤，包括安装库、提取HTML以及从HTML中提取内容。讲解了如何从特定网站的Technology部分获取文章的标题、摘录和发布日期，强调了在刮取前需确认网站允许。

摘要由CSDN通过智能技术生成

Python 中的 Beautiful Soup 库可以很方便的从网页中提取 HTML 内容。

今天我们将讨论如何使用美丽的汤库从 HTML 页面中提取内容，之后，我们将使用它将其转换为 Python 列表或字典。

什么是 Web 刮取，为什么我需要它？

答案很简单：并非每个网站都有获取内容的 API。你可能想从你最喜欢的烹饪网站上获取食谱，或者从旅游博客上获取照片。如果没有 API，提取 HTML（或者说刮取刮削可能是获取内容的唯一方法。我将向你展示如何使用 Python 来获取。

并非所以网站都喜欢被刮取，有些网站可能会明确禁止。请于网站所有者确认是否同意刮取。

Python 如何刮取网站？

使用 Python 进行刮取，我们将执行三个基本步骤：

<span style="color:#444444"><span style="background-color:#f6f6f6"><span style="color:#333333"><strong>requests</strong></span>
</span></span>

安装库

首先安装我们需要的库。库从网站获取 HTML 内容，Beautiful Soup 解析 HTML 并将其转换为 Python 对象。在 Python3 中安装它们，运行：requests

<span style="color:#444444"><span style="background-color:#f6f6f6"><span style="color:#333333"><strong>pip3</strong></span> install requests beautifulsoup4
</span></span>

提取 HTML

在本例中，我将选择刮取网站的Techhology部分。如果你跳转到此页面，你会看到带有标题、摘录和发布日期的文章列表。我们的目标是创建一个包含这些信息的文章列表。

网站页面的完整 URL 是：

<span style="color:#444444"><span style="background-color:#

最低0.47元/天解锁文章

Python_xiaowu

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python 美丽的汤 刮取简易指南

什么是 Web 刮取，为什么我需要它？

Python 如何刮取网站？

安装库

提取 HTML

Python 美丽的汤刮取简易指南