使用scrapy-redis构建简单的分布式爬虫

最新推荐文章于 2025-09-24 01:27:43 发布

原创

最新推荐文章于 2025-09-24 01:27:43 发布 · 3w 阅读

55 ·

CC 4.0 BY-SA版权

文章标签：

#python #redis #分布式应用 #爬虫 #信息处理

本文介绍如何使用scrapy和scrapy-redis构建分布式爬虫。通过scrapy-redis，可以从redis中读取网址实现分布式爬取。准备工作中涉及scrapy、scrapy-redis的安装，以及redis、mysql、mysqldb和redis模块的配置。文中详细解释了scrapy-redis的特性和使用方式，并给出了58同城平板电脑信息爬虫的实例。

前言

scrapy是python界出名的一个爬虫框架。Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。
虽然scrapy能做的事情很多，但是要做到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列调度，将起始的网址从start_urls里分离出来，改为从redis读取，多个客户端可以同时读取同一个redis，从而实现了分布式的爬虫。就算在同一台电脑上，也可以多进程的运行爬虫，在大规模抓取的过程中非常有效。

准备

既然这么好能实现分布式爬取，那都需要准备什么呢？
需要准备的东西比较多，都有：
- scrapy
- scrapy-redis
- redis
- mysql
- python的mysqldb模块
- python的redis模块
为什么要有mysql呢？是因为我们打算把收集来的数据存放到mysql中

1. scrapy安装

pip install scrapy

也可以clone下相应的github地址https://github.com/scrapy/scrapy/tree/1.1

2. scrapy-redis安装

pip install scrapy-redis

同样可以clone下相应的github地址https://g

最低0.47元/天解锁文章

16 条评论

量化分析 2019.01.04
已经搞定。新代码同步到 http://30daydo.com

maya8maya85 2018.05.07
博主估计已死，大家有事烧纸吧

量化分析 2017.10.17
请问pipline里面这个函数是干嘛的？CleanPipeline 在ITEM_PIPELINE定义了两个pipeline，而且这个的优先级更高，是不是只执行这一个？用你的代码能跑起来，可是mysql上没见到存储有数据

qq_39880807 2017.08.17
你好问一下如果redis里边没有数据的时候会不会一直等待下一条数据呢会不会爬完就退出呢

qq_22612039 2017.06.02
博主,你好，当python连接redis时报ResponseError: NOAUTH Authentication required.错误,好像是连接redis要求认证,要加密码,但是我配置文件settings.py已经加了密码,还是报错，请问怎么解决

qq_33892092 2017.02.25
这篇文章没有实现 redis的去重和 item的分布式，不过博主的文章已经非常详细，对于redis的入门有借鉴意义

qq_33892092 2017.02.25
这篇文章没有实现 redis的去重和 item的分布式，不过博主的文章已经非常详细，对于redis的入门有借鉴意义

qq_33892092 2017.02.25
这篇文章没有实现 redis 的去重和 item的分布式

qq_33892092 2017.02.25
这篇文章没有实现 redis 的去重和 item的分布式

qq_20178909 2016.12.21
我是win7系统，请问博主：scrapy crawl myspider_58page和scrapy crawl myspider_58是用打开两个cmd来输入命令吗，然后这边也初始化得地址了lpush myspider:58_urls http://hz.58.com/pbdn/0/和lpush myspider:start_urls http://xxxxxxx.com(商品页)；最后就只发现插入数据库的就只有这条商品页信息??,请问是什么问题呢？
- baofeifei121088回复howtogetout 2017.05.11
  [reply]howtogetout[/reply] LZ还在么，我发现原代码也没有了，我也遇到了这个问题，能不能请教LZ一些关于Scrapy-redis的问题
- baofeifei121088回复Uppp 2017.05.11
  [reply]Wales_2015[/reply 我也遇到了这个问题，请问解决了么？
- Uppp回复qq_20178909 2017.03.30
  [reply]qq_20178909[/reply] 你好，我也遇到了这个问题请问你问题解决了吗？是怎么样解决的？
- qq_20178909回复howtogetout 2017.01.04
  [reply]howtogetout[/reply] 添加代码部分： r=Redis() if r.ping(): print u'已连接' 运行如下： {'UrlofPage': u'http://bj.58.com/pbdn/0/pn5/'} 2017-01-04 10:33:01 [myspider_58page] DEBUG: Read 1 requests from 'myspider:58_ rls' 2017-01-04 10:33:01 [scrapy] DEBUG: Crawled (200) <GET http://bj.58.com/pbdn/0/ n5/> (referer: None) 2017-01-04 10:33:01 [myspider_58page] DEBUG: [u'/pbdn/0/pn6/'] 已连接 2017-01-04 10:33:03 [scrapy] DEBUG: Scraped from <200 http://bj.58.com/pbdn/0/p 5/> 不知道是否这样测试
- howtogetout回复qq_20178909 2017.01.04
  [reply]qq_20178909[/reply] r = Redis() 这一步，加个验证r是不是none看看有没有连接上这一步是初始化redis连接，看看是不是none？
- qq_20178909回复howtogetout 2017.01.03
  [reply]howtogetout[/reply] 前面的过程应该是全部正确，如下： 127.0.0.1:6379> lpush myspider:58_urls http://hz.58.com/pbdn/0/ (integer) 1 127.0.0.1:6379> keys * 1) "myspider:58_urls" 然后运行scrapy crawl myspider_58page爬取部分信息如下： 2017-01-03 10:57:13 [myspider_58page] DEBUG: [u'/pbdn/0/pn4/'] 2017-01-03 10:57:15 [scrapy] DEBUG: Scraped from <200 http://bj.58.com/pbdn/0/pn 3/> {'UrlofPage': u'http://bj.58.com/pbdn/0/pn4/'} 上面的步骤都是正常的那就是redis代码push部分了，怎么解决
- howtogetout回复qq_20178909 2016.12.31
  [reply]qq_20178909[/reply] r = Redis() 这一步，加个验证r是不是none看看有没有连接上
- howtogetout回复qq_20178909 2016.12.31
  [reply]qq_20178909[/reply] 取不到网址，但是lpush网址又能取出来商品信息，看样子是往redis里面lpush这一步出错了？
- qq_20178909回复howtogetout 2016.12.30
  [reply]howtogetout[/reply] 127.0.0.1:6379> lpush myspider:58_urls http://hz.58.com/pbdn/0/ (integer) 1 127.0.0.1:6379> keys * 1) "myspider:58_urls" 可以的。
- howtogetout回复qq_20178909 2016.12.29
  [reply]qq_20178909[/reply] lpush myspider:58_urls http://hz.58.com/pbdn/0/ (integer) 1 127.0.0.1:6379> keys * 你自己手动往里面添加数据能成功么？能用keys *查到数据吗？
- qq_20178909回复howtogetout 2016.12.28
  [reply]howtogetout[/reply] 127.0.0.1:6379> lpush myspider:58_urls http://hz.58.com/pbdn/0/ (integer) 1 127.0.0.1:6379> keys * (empty list or set) 上面key*是运行第一爬虫后查看的，为“空”，scrapy是有正常item信息url，是还需要设置什么？
- howtogetout回复qq_20178909 2016.12.28
  [reply]qq_20178909[/reply] 你把第2个爬虫停掉，只运行第一个，记得先把之前的redis记录清掉，然后运行第一个，然后查看redis里面是否有网址。先一步步来确定情况。
- qq_20178909回复howtogetout 2016.12.27
  [reply]howtogetout[/reply] 运行myspider_58这个爬去具体商品信息的爬虫时，没有看到具体items信息，scrapy crawl myspider_58page这个是有正常的items信息，也即是url；redis也是windows本地的，redis是正常的，感觉myspider_58这个爬虫没有从redis读取url来爬取具体的商品信息，一直都是2016-12-27 15:01:45 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 i tems (at 0 items/min)
- howtogetout回复qq_20178909 2016.12.25
  [reply]qq_20178909[/reply] 是在cmd里面运行的；第二个问题呢看来你还不清楚2个爬虫的作用。58Urlspider这个爬虫实现了2个功能，第一个是爬下一页地址给自己使用。第2个把每页的具体商品url提取出来给另一个爬虫使用。所以启动的时候只需要lpush进去第一个页面就可以了，第一个爬虫会自己来为自己添加新的页面和给另一个爬虫提供url，另一个爬虫的url是直接从redis里面读取的，由第一个爬虫提供，不需要自己手动提供的。