大数据平台建设系列之数据采集-scrapy网络爬虫加速设置(二)

最新推荐文章于 2023-08-04 17:30:07 发布

渔老师

最新推荐文章于 2023-08-04 17:30:07 发布

阅读量304

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36723038/article/details/117653363

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

首先给大家分享一个爬虫对抗图
在这里插入图片描述
再给大家分享一个最新的scrapy架构图

总结的scrapy配置提升方法

爬取大量数据的时候，爬取速度显著影响着爬取用时，总结一下我在使用scrapy的时候用来提升爬取速度的方法。

在settings.py中设置如下参数：

DOWNLOAD_DELAY = 0
CONCURRENT_REQUESTS = 100
CONCURRENT_REQUESTS_PER_DOMAIN = 100
CONCURRENT_REQUESTS_PER_IP = 100
COOKIES_ENABLED = False

一、降低下载延迟

DOWNLOAD_DELAY = 0

将下载延迟设为0，这时需要相应的防ban措施，一般使用user agent轮转，构建user agent池，轮流选择其中之一来作为user agent。

user agent轮转可参考博客http://blog.csdn.net/u012150179/article/details/35774323#

二、多线程

CONCURRENT_REQUESTS = 100

CONCURRENT_REQUESTS_PER_DOMAIN = 100

CONCURRENT_REQUESTS_PER_IP = 100

scrapy网络请求是基于Twisted，而Twisted默认支持多线程，而且scrapy默认也是通过多线程请求的，并且支持多核CPU的并发，我们通过一些设置提高scrapy的并发数可以提高爬取速度。

三、禁用cookies

COOKIES_ENABLED = False
禁用cookies可以避免被ban

经过实测，以上设置可以大幅提升scrapy的爬取速度。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据平台建设系列之数据采集-scrapy网络爬虫加速设置(二)

首先给大家分享一个爬虫对抗图再给大家分享一个最新的scrapy架构图总结的scrapy配置提升方法爬取大量数据的时候，爬取速度显著影响着爬取用时，总结一下我在使用scrapy的时候用来提升爬取速度的方法。在settings.py中设置如下参数：DOWNLOAD_DELAY = 0CONCURRENT_REQUESTS = 100CONCURRENT_REQUESTS_PER_DOMAIN = 100CONCURRENT_REQUESTS_PER_IP = 100COOKIES_ENAB
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。