解决scrapy管道储存不了图片的问题

本文主要介绍了如何解决Scrapy爬虫在使用ImagesPipeline过程中遇到的图片无法储存的问题。尝试更新Pillow模块和Scrapy框架,以及创建新项目和虚拟环境来解决问题。两种方法分别是:1. 新建项目和虚拟环境,卸载并重新安装Pillow;2. 直接通过命令行升级Scrapy。
摘要由CSDN通过智能技术生成

spider中的代码

 def parse(self, response):
        li_list=response.xpath('//*[@id="main"]/div/div[1]/ul/li')
        i=1
        for li in li_list:
            if i <4:
                src = li.xpath('./a/img/@src').extract_first()
                # print(div.xpath('./img/@style').extract())
                i += 1
                print(src)
                item = ImgsproItem()
                item['src'] = src
                yield item
            else:
                break

管道类中的代码:

from scrapy.pipelines.images import ImagesPipeline
import scrapy
class imgsPipeline(ImagesPipeline):
    print('kkkkk')
    # 根据图片地址进行图片数据请求
    def get_media_requests(self, item, info):
        yield scrapy.Request(item['src'])
    # 指定图片储存的路径
    def file_path(self, request, response=Non
回答: 在使用Scrapy框架进行图片下载时,可以通过自定义管道来实现。首先需要在pipelines.py文件中导入ImagesPipeline类,并重写get_media_requests、file_path和item_completed三个方法。以下是一个示例代码: ```python from scrapy.pipelines.images import ImagesPipeline import scrapy import os class ImgsPipLine(ImagesPipeline): def get_media_requests(self, item, info): yield scrapy.Request(url=item['img_src'], meta={'item': item}) def file_path(self, request, response=None, info=None): item = request.meta['item'] filePath = item['img_name'] return filePath def item_completed(self, results, item, info): return item ``` 在代码中,get_media_requests方法负责获取需要下载的图片的请求,通过yield语句返回一个包含图片URL和相关信息的Scrapy请求对象。file_path方法用于指定图片的保存路径和名称,可以根据需要进行自定义设置。item_completed方法在下载完成后对item进行处理,这里简单地返回item。 然后,在settings.py文件中将自定义的管道添加到ITEM_PIPELINES中,如下所示: ```python ITEM_PIPELINES = { 'your_project_name.pipelines.ImgsPipLine': 1, } ``` 需要将'your_project_name'替换为你的项目名称。 这样,在执行爬虫时,Scrapy会自动调用自定义的管道类进行图片的下载和处理。123 #### 引用[.reference_title] - *1* *2* [Python中的scrapy下载并保存图片](https://blog.csdn.net/sl01224318/article/details/118873989)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}} ] [.reference_item] - *3* [scrapy爬虫之利用管道下载文件和图片](https://blog.csdn.net/fengzhilaoling/article/details/107336944)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}} ] [.reference_item] [ .reference_list ]
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值