Python 爬虫入门教程

最新推荐文章于 2025-03-10 21:59:21 发布

Sanstye_Long

最新推荐文章于 2025-03-10 21:59:21 发布

阅读量1k

点赞数 14

文章标签：爬虫开发语言

本文链接：https://blog.csdn.net/Sanstye_Long/article/details/139881079

版权

在现代互联网时代，获取和分析网页数据是许多应用程序和项目的基础。本教程将带领你学习如何使用 Python 编写一个简单但功能强大的网络爬虫，来抓取和提取网页数据。我们将使用 Python 中的 Requests 库来获取网页内容，并结合 BeautifulSoup 库来解析和提取数据。
环境设置
首先，确保你的开发环境中已经安装了 Python 3.x 版本，并且安装了以下必要的库：

pip install requests beautifulsoup4

第一步：发送 HTTP 请求
我们使用 requests 库来发送 HTTP 请求获取网页内容。下面是一个简单的示例代码，演示如何获取网页的 HTML 内容：

import requests

url = 'https://example.com'
response = requests.get(url)

if response.status_code == 200:
    html_content = response.text
    print(html_content)
else:
    print(f'Failed to retrieve webpage: {response.status_code}')

在这个例子中，我们向 https://example.com 发送了一个 GET 请求，并打印了返回的 HTML 内容。
第二步：解析网页内容
一旦我们获取了网页的 HTML 内容，接下来需要使用 BeautifulSoup 库来解析 HTML 并提取我们需要的数据。以下是一个简单的例子，演示如何使用 BeautifulSoup 解析网页：

from bs4 import BeautifulSoup

# 假设 html_content 是上一步中获取的网页内容
soup = BeautifulSoup(html_content, 'html.parser')

# 例子：提取所有 &lt;a&gt; 标签的链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

在这个例子中，我们使用 BeautifulSoup 解析了网页内容，并提取了所有 <a> 标签的链接。
第三步：编写爬虫程序
现在，我们将上述两个步骤结合起来，编写一个完整的网络爬虫程序来抓取指定网页的数据。以下是一个示例，假设我们要抓取豆瓣电影 Top250 的数据：

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    movie_list = soup.find_all('div', class_='item')

    for movie in movie_list:
        title = movie.find('span', class_='title').text
        rating = movie.find('span', class_='rating_num').text
        print(f'Title: {title}, Rating: {rating}')
else:
    print(f'Failed to retrieve webpage: {response.status_code}')

在这个例子中，我们通过请求豆瓣电影 Top250 页面，使用 BeautifulSoup 提取了电影的标题和评分，并打印输出了每部电影的信息。
总结
通过这篇教程，我们学习了如何使用 Python 编写一个基本的网络爬虫，抓取和提取网页数据。虽然本教程只涵盖了基础知识，但它为你提供了一个入门的起点。在实际应用中，你可能会面临更复杂的网页结构和数据提取需求，这时你可以进一步学习和探索 Requests 和 BeautifulSoup 的高级用法,希望本教程对你有所帮助.