ken桑带你读源码之scrapy downloadermiddlewares

anni0103

于 2017-12-14 04:14:00 发布

阅读量121

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/gzwwj/p/8035874.html

版权

downloadermiddlewares 文件夹是下载中间件

其中 process_request 还没请求时的处理函数

process_response 请求之后的处理函数

chunked.py 简单说就是传输网页数据非常大的或者数据长度不确定用到参考 http://blog.csdn.net/whatday/article/details/7571451

decompression.py 读取压缩文件然后解压文件替换 response 76行 response.replace(body=body, cls=respcls)

defaultheaders.py 获取默认的头部 settings['DEFAULT_REQUEST_HEADERS']

downloadtimeout.py 获取默认超时时间

httpauth.py 这个用户认证是http认证可以nginx 上配置的

httpcache.py 网页cache 首先判断 _dont_cache 是否为Ture 读取缓存是否存在是否过期过期看这个 HTTPCACHE_EXPIRATION_SECS 一切正常就直接返回缓存标识该request 已经缓存

特别有意思的是抓取出现异常会调用缓存哈哈

httpproxy.py 这个代码我就不说但实际工作中不用他的我们会另外写一个代理池系统存储 redis 然后再写一个中间件读取代理ip 或者代理ip 存 squid 中间件也省了

redirect.py 该文件有两个中间件 RedirectMiddleware 服务器重定向中间件判断 dont_redirect 是否为True 然后读取 response.headers['location'] 跳转过去

MetaRefreshMiddleware 网页重定向中间件用正则提取出网页重定向的url 然后跳转

retry.py 重试中间件判断如果 http status 是否在 retry_http_codes request.meta.get('retry_times', 0) 是否超过 max_retry_times 然后 return request

特别有意思的是发生异常也会启用重试中间件这个非常实用!!!!! 超级赞

useragent.py 更新 User-Agent

stats.py 统计中间件有一个统计异常很重要 30行 ex_class = "%s.%s" % (exception.__class__.__module__, exception.__class__.__name__)

32 行 self.stats.inc_value('downloader/exception_type_count/%s' % ex_class, spider=spider)

robotstxt.py 判断 robotstxt

转载于:https://www.cnblogs.com/gzwwj/p/8035874.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。