scrapy 图片下载管道以及文件下载管道

最新推荐文章于 2024-05-16 11:47:28 发布

想不到叫啥好

最新推荐文章于 2024-05-16 11:47:28 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/weixin_42657103/article/details/81413018

版权

1.图片下载管道：

获取指定的图片链接：

imgSrc = ul.xpath('.//img/@src2').extract()[0]

item['imgSrc'] = [imgSrc]

yield item

进入settings.py 里面，进行如下操作：

ITEM_PIPELINES = {
   # 'imageNet.pipelines.ImagenetPipeline': 300,
   #  scrapy中专门负责图片下载的管道
    'scrapy.pipelines.images.ImagesPipeline':1
}
# 图片的存储路径
IMAGES_STORE = 'imageDownLoad'
# 图片的下载地址 根据item中的字段来设置哪一个内容需要被下载
IMAGES_URLS_FIELD = 'src'

2.小说下载管道：

找到指定的小说的下载链接，进行如下操作：


        # 获取小说的下载地址、
 downloadUrl=response.xpath('//div[@class="showDown"]/ul/li[3]/script').extract_first('').split(',')[1].strip("'")
 print(downloadUrl)

 item['downloadUrl'] = [downloadUrl]

 yield item

进入settings.py：

ITEM_PIPELINES = {
   'qishu.pipelines.QishuPipeline': 300,
    # 文件下载管道
    'scrapy.pipelines.files.FilesPipeline':1
}

FILES_STORE = 'file/book'
FILES_URLS_FIELD = 'downloadUrl'