【python】多线程来提升scrapy的速度

最新推荐文章于 2021-02-10 22:50:25 发布

云中鲸

最新推荐文章于 2021-02-10 22:50:25 发布

阅读量3.7k

点赞数 4

分类专栏：爬虫 Python 文章标签： python 多线程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38486203/article/details/108827267

版权

Python 同时被 2 个专栏收录

115 篇文章 16 订阅

订阅专栏

12 篇文章 1 订阅

订阅专栏

scrapy在单机跑大量数据的时候，在对settings文件不进行设置的时候，scrapy的爬取速度很慢，再加上多个页面层级解析，往往导致上万的数据可能爬取要半个小时之久，这还不包括插入数据到数据库的操作。下面是我在实验中测试并且验证爬取速度大幅度提升，不过前提你要注意到你爬取的目标网站有没有反IP的可能。

settings文件设置以下参数：

DOWNLOAD_DELAY = 0
CONCURRENT_REQUESTS = 100
CONCURRENT_REQUESTS_PER_DOMAIN = 100
CONCURRENT_REQUESTS_PER_IP = 100
COOKIES_ENABLED = False

降低下载延迟
DOWNLOAD_DELAY = 0 将下载延迟设置为0，同时加入随机User-Agent是所必要的，这个是一开始就要进行设置的
多线程
```
CONCURRENT_REQUESTS = 100
CONCURRENT_REQUESTS_PER_DOMAIN = 100
CONCURRENT_REQUESTS_PER_IP = 100
```
scrapy框架是基于多线程Twisted，当然scrapy也是通过多线程进行数据请求的，并且支持多核CPU的并发，我们就可以通过设置并发请求数来提高爬取速度。
禁止使用Cookies
COOKIES_ENABLED = False

大部分情况下静止使用Cookies可以防止被ban。

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

云中鲸 CSDN认证博客专家 CSDN认证企业博客

码龄7年

214: 原创

3万+: 周排名

9万+: 总排名

213万+: 访问

: 等级

1万+: 积分

212: 粉丝

968: 获赞

239: 评论

3204: 收藏

私信

关注

分类专栏

Python 115篇
numpy 4篇
matplotlib 1篇
Django 1篇
Java 3篇
数据库 1篇
MySQL 47篇
PostgreSQL 8篇
Oracle 3篇
Neo4j 6篇
前端 7篇
机器学习 4篇
windows 10篇
Linux 36篇
EXCEL 3篇
友盟 2篇
爬虫 12篇
ELK 14篇
HTTP 1篇
tableau 1篇
LeetCode数据库 2篇
R 1篇
算法 1篇
git 1篇
BI 1篇
软件下载 3篇
通信 4篇

最新评论

【python】使用pip出现/bin/python: bad interpreter: No such file or directory
CS_Kevin_1: 感谢大佬，问题解决了
【python】使用pip出现/bin/python: bad interpreter: No such file or directory
weixin_41970085: 怎么去改#后面的路径呀
【python】使用pip出现/bin/python: bad interpreter: No such file or directory
yxy1336: 感谢大佬。解决问题了
【VOS】通话终止原因(服务器原因)
2401_85854862: 487
【Mysql】sql中exists,not exists的用法
slocker4: 文章中 exist 和 in 的区别的解读有一定问题，exists 与 in 的最大区别不在于 in引导的子句只能返回一个字段，in引导的自居可以返回多个字段具体原因可以参考 https://blog.csdn.net/weixin_35032861/article/details/113210973 。in 和 exists 的真正区别是 in 返回的是结果集，因而不能直接作为条件，需要以以下格式作为条件 where ... and (（sclass,sno） in（select sclass,sno from ....）) ，而exists只返回是非因而可以独立作为一个条件，格式为 where ... and exists （select * from ....）

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

云中鲸 谢赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。