Python爬虫实战：图片爬取与保存

小尤笔记

已于 2024-07-22 17:33:38 修改

阅读量3.2k

点赞数 10

文章标签： python 开发语言计算机爬虫图片

于 2024-07-22 17:25:13 首次发布

本文链接：https://blog.csdn.net/2301_78096295/article/details/140614978

版权

Python爬虫在数据抓取和图片下载方面非常有用。下面，我将详细讲解如何使用Python的requests库来请求网页内容，并使用BeautifulSoup库来解析HTML页面，最后使用urllib.request或requests库来下载并保存图片。

准备工作

首先，你需要安装requests和beautifulsoup4库（如果你还没有安装的话）。你可以通过pip来安装它们：

示例：从网站爬取图片

假设我们想要从某个网页（比如一个图片分享网站）上爬取所有图片。以下是详细的步骤和代码。

1. 导入必要的库

pip install requests beautifulsoup4

2. 发送HTTP请求

使用requests库发送GET请求到目标网站。

import requests  
from bs4 import BeautifulSoup  
import os

3. 解析HTML

使用BeautifulSoup解析HTML内容，找到图片链接。

url = 'http://example.com/gallery'  # 示例URL，请替换成实际的图片网页URL  
headers = {  
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}  
response = requests.get(url, headers=headers)  
response.raise_for_status()  # 如果响应状态码不是200，则抛出HTTPError异常

4. 下载并保存图片

遍历找到的图片链接，下载图片并保存到本地。

# 创建一个文件夹来保存图片  
if not os.path.exists('downloaded_images'):  
    os.makedirs('downloaded_images')  
  
for img in images:  
    img_url = img['src']  
    # 构造完整的图片URL（如果图片URL是相对路径）  
    if not img_url.startswith('http'):  
        img_url = urljoin(url, img_url)  
      
    # 使用requests下载图片  
    img_response = requests.get(img_url, stream=True)  
    img_response.raise_for_status()  
      
    # 获取图片文件名（这里简单地使用URL的最后一部分）  
    file_name = os.path.join('downloaded_images', img_url.split('/')[-1])  
      
    # 以二进制写模式打开文件  
    with open(file_name, 'wb') as file:  
        for chunk in img_response.iter_content(1024):  
            file.write(chunk)  
  
    print(f'Image saved as {file_name}')

注意点

User-Agent：有些网站会检查请求的User-Agent头部来判断是否为爬虫，因此设置一个合理的User-Agent可能有助于绕过简单的反爬虫机制。
图片URL：确保你获取的URL是完整的（包括协议部分，如http://或https://）。有些网站的图片链接可能是相对路径，这时你需要通过urljoin函数来构造完整的URL。
错误处理：在实际应用中，应该添加适当的错误处理机制，比如捕获网络请求异常、文件写入异常等。