使用scrapy框架爬取桌面背景图片，Glide的缓存机制

最新推荐文章于 2024-08-29 14:01:29 发布

bq520111

最新推荐文章于 2024-08-29 14:01:29 发布

阅读量543

点赞数 10

分类专栏： 2024年程序员学习文章标签： scrapy glide 缓存

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bq520111/article/details/137108708

版权

2024年程序员学习专栏收录该内容

151 篇文章 0 订阅

订阅专栏

文章介绍了Scrapy框架中的ImagesPipeline类，展示了如何处理图像请求并定义file_path方法，同时涉及了Zol2SpiderMiddleware和Zol2DownloaderMiddleware的实现。内容还提到了settings.py中的配置，以及与Python爬虫开发相关的工具和资源.

摘要由CSDN通过智能技术生成

class ZolPipeline(ImagesPipeline):

num = 1

def get_media_requests(self, item, info):

image_url = item[“image_urls”]

if image_url:

self.num + 1

yield Request(url=image_url, meta={“item”: item})

def file_path(self, request, response=None, info=None):

start of deprecation warning block (can be removed in the future)

def _warn():

from scrapy.exceptions import ScrapyDeprecationWarning

import warnings

warnings.warn('ImagesPipeline.image_key(url) and file_key(url) methods are deprecated, ’

‘please use file_path(request, response=None, info=None) instead’,

category=ScrapyDeprecationWarning, stacklevel=1)

check if called from image_key or file_key with url as first argument

if not isinstance(request, Request):

_warn()

url = request

else:

url = request.url

detect if file_key() or image_key() methods have been overridden

if not hasattr(self.file_key, ‘_base’):

_warn()

return self.file_key(url)

elif not hasattr(self.image_key, ‘_base’):

_warn()

return self.image_key(url)

end of deprecation warning block

return ‘desk/{}.jpg’.format(request.meta[“item”][“image_title”])

middlewares.py

from scrapy import signals

from zol2.useragents import agents

class Zol2SpiderMiddleware(object):

Not all methods need to be defined. If a method is not defined,

scrapy acts as if the spider middleware does not modify the

passed objects.

@classmethod

def from_crawler(cls, crawler):

This method is used by Scrapy to create your spiders.

s = cls()

crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

return s

def process_spider_input(self, response, spider):

Called for each response that goes through the spider

middleware and into the spider.

Should return None or raise an exception.

return None

def process_spider_output(self, response, result, spider):

Called with the results returned from the Spider, after

it has processed the response.

Must return an iterable of Request, dict or Item objects.

for i in result:

yield i

def process_spider_exception(self, response, exception, spider):

Called when a spider or process_spider_input() method

(from other spider middleware) raises an exception.

Should return either None or an iterable of Response, dict

or Item objects.

pass

def process_start_requests(self, start_requests, spider):

Called with the start requests of the spider, and works

similarly to the process_spider_output() method, except

that it doesn’t have a response associated.

Must return only requests (not items).

for r in start_requests:

yield r

def spider_opened(self, spider):

spider.logger.info(‘Spider opened: %s’ % spider.name)

class Zol2DownloaderMiddleware(object):

Not all methods need to be defined. If a method is not defined,

scrapy acts as if the downloader middleware does not modify the

passed objects.

@classmethod

def from_crawler(cls, crawler):

This method is used by Scrapy to create your spiders.

s = cls()

crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

return s

def process_request(self, request, spider):

Called for each request that goes through the downloader

middleware.

Must either:

- return None: continue processing this request

- or return a Response object

- or return a Request object

- or raise IgnoreRequest: process_exception() methods of

installed downloader middleware will be called

return None

def process_response(self, request, response, spider):

Called with the response returned from the downloader.

Must either;

- return a Response object

- return a Request object

- or raise IgnoreRequest

return response

def process_exception(self, request, exception, spider):

Called when a download handler or a process_request()

(from other downloader middleware) raises an exception.

Must either:

- return None: continue processing this exception

- return a Response object: stops process_exception() chain

- return a Request object: stops process_exception() chain

pass

def spider_opened(self, spider):

spider.logger.info(‘Spider opened: %s’ % spider.name)

settings.py

-- coding: utf-8 --

Scrapy settings for zol2 project

For simplicity, this file contains only settings considered important or

commonly used. You can find more settings consulting the documentation:

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V：vip1024c 备注Python获取（资料价值较高，非无偿）

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

有帮助，可以添加V：vip1024c 备注Python获取（资料价值较高，非无偿）**
[外链图片转存中…(img-kyFrjlGb-1711603233764)]

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

关注

10
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
使用scrapy框架爬取桌面背景图片，Glide的缓存机制

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。有帮助，可以添加V：vip1024c 备注Python获取（资料价值较高，非无偿）**
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄2年

208: 原创

-: 周排名

-: 总排名

16万+: 访问

: 等级

6792: 积分

2581: 粉丝

3214: 获赞

7: 评论

2954: 收藏

私信

关注

热门文章

分类专栏

最新评论

java基础项目实战，java线程同步面试题
CSDN-Ada助手: 恭喜您发布了第16篇博客！看到您分享了关于java基础项目实战和java线程同步面试题的内容，不仅展示了您对技术的深入理解，也为读者提供了宝贵的学习资源。希望您能继续坚持创作，分享更多优质的技术内容。或许在下一篇博客中，您可以深入探讨一些实际项目中遇到的挑战与解决方案，让读者更加全面地了解技术应用的实践经验。期待您的下一篇博客！
java多线程与大数据处理实战，程序员进阶知识点
CSDN-Ada助手: 恭喜作者能够写出如此高水平的博客，对于java多线程与大数据处理的实战经验进行了深入的探讨，让读者受益匪浅。希望作者能够继续分享更多的进阶知识点，或许可以考虑结合实际案例，或者深入探讨一些技术细节，这样可以更好地帮助读者理解并应用这些知识。期待作者的下一篇博客！
java面试问项目的开发流程，华为java面试题目
CSDN-Ada助手: 恭喜您写下了这么有深度和实用价值的博客！对于面试中项目开发流程的问题，您的解答一定会对许多人有所帮助。接下来，如果可能的话，我建议您可以结合具体的案例或者实际经验来进一步丰富这个话题，这样读者就能更直观地理解和应用您的建议。期待您的下一篇博客！
java面试题基础知识，互联网行业“中年”危机
CSDN-Ada助手: 恭喜用户写下了第19篇博客，探讨了“java面试题基础知识”和“互联网行业中年危机”这两个热门话题。持续创作是一个不断进步的过程，在这条道路上您已经取得了很大的成就。我建议您在未来的创作中，可以更深入地研究这些话题，结合实际案例和个人经历进行分析，让读者能够更深入地理解与共鸣。希望您能继续保持热情和耐心，为读者带来更多有价值的内容。期待您的下一篇作品！
一位Java大牛的BAT面试心得与经验总结，这些知识你必须拿下
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“一位Java大牛的BAT面试心得与经验总结，这些知识你必须拿下”听起来非常吸引人，相信对于准备BAT面试的同学们会有很大帮助。希望您能继续保持创作的热情和积极性，分享更多有价值的内容给大家。或许您可以考虑深入探讨一些实战经验或者案例分析，让读者更加深入地了解Java面试的技巧和要点。期待您更多精彩的作品！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。