scrapy ImagesPipeline根据关键字下载百度图片到本地

最新推荐文章于 2022-05-29 11:16:56 发布

cocosix

最新推荐文章于 2022-05-29 11:16:56 发布

阅读量372

点赞数

分类专栏：爬虫 scrapy 百度图片批量保存到本地

本文链接：https://blog.csdn.net/qq_36572391/article/details/108261447

版权

scrapy ImagesPipeline根据关键字下载百度图片到本地

scrapy框架
一、scrapy的图片下载-ImagesPipeline
二、根据关键字下载百度图片到本地
- 1.构造百度图片请求，解析图片URL
- 2.ImagesPipeline下载图片到本地
本篇小结

scrapy框架

scrapy框架是一个多线程爬虫框架，是可以集请求、解析、存储于一体的爬虫框架，关于框架简介和重要的组件可以参考：
零基础scrapy项目结构简介-python批量获取百度图片到本地
下面主要以百度图片下载并保存到本地为例，介绍scrapy爬取图片到本地的方法

一、scrapy的图片下载-ImagesPipeline

ImagesPipeline是scrapy提供的图片下载类。我们可以定义pipeline来继承ImagesPipeline来实现自定义的图片下载

在scrapy的源码中（源码地址：https://github.com/scrapy/scrapy/tree/master/scrapy），pipelines文件夹下有三个python文件：files.py ，images.py 和 media.py。当我们选择使用ImagesPipeline来处理图片时，主要用到了这三个python所定义的方法
scrapy源码pipelines目录

有关图片请求和保存到本地的方法可以参见这三个python，其中images.py中的一些方法是我们可以重写的（此外还有一个小知识点，ImagesPipeline其实继承了FilesPipeline，具体可参考images.py，细节将在下一篇文章中进行介绍）

二、根据关键字下载百度图片到本地

1.构造百度图片请求，解析图片URL

初始化定义spider的name和allowed_domains以及关键字

image_spider.py

import scrapy
import json
from baidu_crawler.items import BaiduCrawlerItem


class ImageSpiderSpider(scrapy.Spider):
    name = 'image_spider'
    allowed_domains = ['image.baidu.com']
    key = r'猫'

构造初始请求获取到百度提供的图片总数，为之后翻页查询做准备。这里Request有三个参数，url是要获取的图片链接，callback是请求后的回调函数，即在parse方法里可以对请求结果进行解析，dont_filter=False表示对url进行去重。关于Request函数的参数和详细定义可以参照
https://github.com/scrapy/scrapy/blob/be655b855da3f5643b004e9f2d5b9161266c17f4/scrapy/http/request/init.py

image_spider.py

def start_requests(self):
    url = 'http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&queryWord={word}&word={word}&pn=0'.format(word=self.key)
    yield scrapy.Request(url=url, callback=self.parse, dont_filter=False)

然后解析请求返回的结果，获取到图片总数，根据图片数来翻页请求所有可以获得的图片

image_spider.py

def parse(self, response)

最低0.47元/天解锁文章

cocosix

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy ImagesPipeline根据关键字下载百度图片到本地

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码
复制链接

扫一扫

专栏目录