scrapy 添加缓存中间件减少网络重复请求

最新推荐文章于 2021-01-27 19:15:35 发布

Echean

最新推荐文章于 2021-01-27 19:15:35 发布

阅读量1.4k

点赞数

文章标签： python scrapy 缓存

本文链接：https://blog.csdn.net/qq_36486573/article/details/81533236

版权

目前公司做的爬虫，不管测试还是爬取都是从网络直接请求资源，在调试的时候个人感觉十分耗时间，效率太低。最近受到同事的启发，做一个本地缓存来提高速度。

添加中间件cache_middleware()

class cache_middleware(object):

    conn_pool = redis.ConnectionPool(host='localhost', port=6379, decode_responses=True)

    def process_request(self, request, spider):
        try:
            c = self.get_conn()
            md = hashlib.md5()
            x = request.url.encode('utf-8')
            md.update(x)
            key = md.hexdigest()
            result = c.get(key)
            if result:
                res = scrapy.http.TextResponse(url=request.url, status=200, headers=None, body=result, request=None, encoding='utf-8')
                print '从本地缓存中取数据'
                return res
        except Exception as e:
            print 'middleware:' + str(e)
            pass

    @cl

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Echean

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy 添加缓存中间件减少网络重复请求

目前公司做的爬虫，不管测试还是爬取都是从网络直接请求资源，在调试的时候个人感觉十分耗时间，效率太低。最近受到同事的启发，做一个本地缓存来提高速度。添加中间件cache_middleware()class cache_middleware(object): conn_pool = redis.ConnectionPool(host='localhost', port=6379, ...
复制链接

扫一扫