Scrapy 中 ImagesPipeline 无法保存原图exif信息的原因

风炫安全

于 2023-02-13 12:42:42 发布

阅读量250

点赞数

分类专栏：编程开发文章标签： scrapy python html

本文链接：https://blog.csdn.net/hyj123480/article/details/129006980

版权

编程开发专栏收录该内容

3 篇文章 1 订阅

订阅专栏

之前遇到一个需求，就是需要爬取并下载网站的图片，并带有图片的exif信息，使用了Scrapy， ImagesPipeline 这个处理的pipeline，但是后来发现，这个类有一个大坑，如果是需要下载原图，这个类默认会对图片进行处理，从而覆盖掉原来图片的exif信息，
Scrapy 中 ImagesPipeline 这个类，有一个方法

    def convert_image(self, image, size=None):
        if image.format == 'PNG' and image.mode == 'RGBA':
            background = self._Image.new('RGBA', image.size, (255, 255, 255))
            background.paste(image, image)
            image = background.convert('RGB')
        elif image.mode == 'P':
            image = image.convert("RGBA")
            background = self._Image.new('RGBA', image.size, (255, 255, 255))
            background.paste(image, image)
            image = background.convert('RGB')
        elif image.mode != 'RGB':
            image = image.convert('RGB')

        if size:
            image = image.copy()
            image.thumbnail(size, self._Image.ANTIALIAS)

        buf = BytesIO()
        image.save(buf, 'JPEG')
        return image, buf

会对图片进行一些处理，我就是因为这个坑找了一天，后来不使用这个类自己写的pipeline

风炫安全

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Scrapy 中 ImagesPipeline 无法保存原图exif信息的原因

scrapy 这个处理的ImagesPipeline，无法保存原图的exif信息，但是后来发现，这个类有一个大坑，如果是需要下载原图，这个类默认会对图片进行处理，从而覆盖掉原来图片的exif信息，之前遇到一个需求，就是需要爬取并下载网站的图片，并带有图片的exif信息，使用了Scrapy，会对图片进行一些处理，我就是因为这个坑找了一天，后来不使用这个类自己写的pipeline。
复制链接

扫一扫

专栏目录