环境介绍:
在单机,IDEA下运行scrapy框架:分布式、增量式,平台爬虫三种爬虫在开延迟和不开延迟的情况下做对比。
做的不是很专业,但是符合实际。每种情况运行150s左右。
分布式和增量式用redis去重,普通爬虫没有去重。
全部采用MongoDB存储。(测试过,数据不会丢失,爬取多少,存取多少)
一、速率对比列表
分布式 | 增量式 | 普通爬虫 | |
不开延迟 | 14.44 | 8.57 | 1 |
开1s延迟 | 3.55 | 1.18 | 1 |
二、不开延迟对比:
分布式(3个爬虫) : 增量式 : 普通爬虫
= 40.72 : 24.18: 2.82
= 14.44 : 8.57 : 1
分布式:6067,149s ,速率40.72条/s
增量:3555,147s ,速率24.18条/s
普通爬虫:361,128s ,速率2.82条/s
三、开1s延迟对比
分布式(3个爬虫) : 增量式 : 普通爬虫
= 2.34 : 0.78 : 0.66
=3.55 : 1.18 : 1
分布式:304,130s,速率2.34条/s
增量:102,130s, 速率0.78条/s
普通爬虫:75,113s,速率0.66条/s