Scrapy自带有ImagesPipeline:
当使用ImagesPipeline下载文件的时候,按照以下步骤来完成:
1、定义好一个Item,然后在这个item中定义两个属性,分别为image_urls以及images。image_urls是用来存储需要下载的图片的url链接,需要给一个列表。
2、当文件下载完成后,会把文件下载的相关信息存储到item的images属性中。比如下载路径、下载的url和图片的校验码等。
3、在配置文件settings.py中配置 IMAGES_STORE,这个配置是用来设置图片下载下来的路径。
4、启动pipeline:在ITEM_PIPELINES中设置scrapy.pipelines.images.ImagesPipeline:1。