在这篇文章中,我们将介绍如何使用 Python 编写一个简单的网络爬虫,以获取并解析网页内容。我们将使用 Beautiful Soup 库,它是一个非常强大的库,用于解析和操作 HTML 和 XML 文档。让我们开始吧!
一. 安装 Beautiful Soup
首先,您需要安装 Beautiful Soup。在终端或命令提示符中运行以下命令:
pip install beautifulsoup4
此外,我们还需要一个 HTTP 库来发送网络请求。在本教程中,我们将使用 requests 库。如果您尚未安装它,请运行以下命令:
pip install requests
二. 发送 HTTP 请求
现在,我们已经安装了所需的库,让我们开始编写网络爬虫。首先,我们需要发送一个 HTTP 请求以获取网页内容。以下是如何使用 requests 库发送 GET 请求的示例:
import requests
url = 'https://www.example.com'
response = requests.get(url)
print(response.text)
三. 解析 HTML
接下来,我们将使用 Beautiful Soup 解析 HTML。首先,我们需要导入库,然后创建一个 Beautiful Soup 对象。以下是一个示例:
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
四. 提取信息
现在我们已经创建了一个 Beautiful Soup 对象,我们可以使用它来提取网页中的信息。以下是一些常见的提取方法:
使用标签名称提取元素:
title = soup.title
使用属性提取元素:
div = soup.find('div', {'class': 'example-class'})
提取元素的文本:
text &

最低0.47元/天 解锁文章
255

被折叠的 条评论
为什么被折叠?



