如何解决 Scrapy 下载图片时的文件名错误问题

一勺菠萝丶

于 2024-05-16 11:04:19 发布

阅读量253

点赞数 5

分类专栏： # Python爬虫文章标签： scrapy python 爬虫

本文链接：https://blog.csdn.net/weixin_39973810/article/details/138952760

版权

Python爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在使用 Scrapy 的 ImagesPipeline 下载图片时，有时会遇到因为文件名的问题导致下载失败的情况。本文将详细解释这种错误的原因，并提供一个简单易懂的解决方案，帮助大家避免类似的问题。

问题描述

在下载图片时，如果图片的名字是包含中文或特殊字符时，会遇到以下错误：

OSError: [Errno 22] Invalid argument: './my_tu\\粉色大波浪女孩 报纸墙 4k动漫壁纸3840*2160_min.jpg'
2024-05-16 10:56:30 [scrapy.pipelines.files] ERROR: File (unknown-error): Error processing file from <GET https://pic.netbian.com/uploads/allimg/240509/010156-1715187716fada.jpg> referred in <None>

而当图片的名字是 010156-1715187716fada.jpg 这样的简单英文和数字组合时，下载可以正常进行。

原因分析

造成这种情况的主要原因是文件名中包含了非ASCII字符（如中文字符）或特殊字符（如 “*”, “?” 等）。这些字符在某些操作系统（如 Windows）中是非法字符，无法用于文件名，导致了 OSError: [Errno 22] Invalid argument 错误。

解决方案

为了避免此类错误，我们可以对文件名进行规范化处理，移除或替换非法字符。以下是一个详细的解决方案，包含具体的代码示例。

第一步：定义一个函数来规范化文件名

首先，我们定义一个函数 sanitize_filename，这个函数会移除或替换文件名中的非法字符。

import re

def sanitize_filename(filename):
    # 移除文件名中的非法字符，替换为下划线
    sanitized = re.sub(r'[<>:"/\\|?*]', '_', filename)
    return sanitized

第二步：在 ImagePipeline 中使用 `sanitize_filename` 函数

接下来，我们需要在 ImagesPipeline 中使用这个函数，重写 file_path 方法来规范化文件名。

from scrapy.pipelines.images import ImagesPipeline

class CustomImagesPipeline(ImagesPipeline):

    def file_path(self, request, response=None, info=None, *, item=None):
        # 从 URL 中提取文件名
        original_filename = request.url.split('/')[-1]
        # 规范化文件名
        sanitized_filename = sanitize_filename(original_filename)
        return f'full/{sanitized_filename}'

第三步：在 settings.py 中启用自定义的 ImagesPipeline

最后，我们需要在 Scrapy 项目的 settings.py 文件中启用自定义的 ImagesPipeline。

ITEM_PIPELINES = {
    'my_project.pipelines.CustomImagesPipeline': 1,
}

完整代码示例

以下是完整的代码示例，可以直接使用：

import re
from scrapy.pipelines.images import ImagesPipeline

def sanitize_filename(filename):
    # 移除文件名中的非法字符，替换为下划线
    sanitized = re.sub(r'[<>:"/\\|?*]', '_', filename)
    return sanitized

class CustomImagesPipeline(ImagesPipeline):

    def file_path(self, request, response=None, info=None, *, item=None):
        # 从 URL 中提取文件名
        original_filename = request.url.split('/')[-1]
        # 规范化文件名
        sanitized_filename = sanitize_filename(original_filename)
        return f'full/{sanitized_filename}'

# 在 settings.py 中启用自定义的 ImagesPipeline
ITEM_PIPELINES = {
    'my_project.pipelines.CustomImagesPipeline': 1,
}

结论

通过对文件名进行规范化处理，我们可以有效避免因为非法字符导致的文件名解析错误，从而确保图片下载过程顺利进行。

一勺菠萝丶

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
如何解决 Scrapy 下载图片时的文件名错误问题

首先，我们定义一个函数，这个函数会移除或替换文件名中的非法字符。import re# 移除文件名中的非法字符，替换为下划线最后，我们需要在 Scrapy 项目的文件中启用自定义的 ImagesPipeline。
复制链接

扫一扫