之前遇到一个需求,就是需要爬取并下载网站的图片,并带有图片的exif信息,使用了Scrapy, ImagesPipeline
这个处理的pipeline,但是后来发现,这个类有一个大坑,如果是需要下载原图,这个类默认会对图片进行处理,从而覆盖掉原来图片的exif信息,
Scrapy 中 ImagesPipeline
这个类,有一个方法
def convert_image(self, image, size=None):
if image.format == 'PNG' and image.mode == 'RGBA':
background = self._Image.new('RGBA', image.size, (255, 255, 255))
background.paste(image, image)
image = background.convert('RGB')
elif image.mode == 'P':
image = image.convert("RGBA")
background = self._Image.new('RGBA', image.size, (255, 255, 255))
background.paste(image, image)
image = background.convert('RGB')
elif image.mode != 'RGB':
image = image.convert('RGB')
if size:
image = image.copy()
image.thumbnail(size, self._Image.ANTIALIAS)
buf = BytesIO()
image.save(buf, 'JPEG')
return image, buf
会对图片进行一些处理,我就是因为这个坑找了一天,后来不使用这个类自己写的pipeline