Scrapy-Redis分布式爬虫小白问题记录

最新推荐文章于 2020-01-03 16:28:09 发布

weixin_34413802

最新推荐文章于 2020-01-03 16:28:09 发布

阅读量73

点赞数

原文链接：http://www.cnblogs.com/code0001/p/7442406.html

版权

1、首先我是将Redis装在了阿里云的一台CentOS6.8上，使用ps -ef|grep redis查看是否成功运行

2、CentOS安装scrapy请参考 http://blog.csdn.net/u012375924/article/details/51244485

3、setting.py里 REDIS_URL 的配置如下

　　master端 :

REDIS_HOST = 'localhost'
REDIS_PORT = 6379

　　slave端，没有账号密码直接填ip就可以 :

REDIS_URL = 'redis://user:pass@hostname:6379'

这个master端的意思如果你需要在安装redis的机器上也跑爬虫的话就这样配置，不过后面的写法会覆盖前面

4、CentOS默认安装的是Python2，需要升级的同学请看 http://blog.csdn.net/hobohero/article/details/54381475

5、连接Redis，输入start_url启动爬虫

redis-cli -h 192.168.1.112 -p 6379

192.168.1.112:6379>lpush myspider:start_urls http://xxx.com/xxx

注意这里的 myspider:start_urls 是你爬虫的redis_key，如果不设置会有默认值，如果你在lpush的时候写错，爬虫就获取不到start_url，爬虫也就一直在等待没有响应

转载于:https://www.cnblogs.com/code0001/p/7442406.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34413802

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

使用 scrapy-redis实现分布式爬虫

LDC，公众号【轻松学编程】

07-15

2万+

Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供了下面四种组件（components）：(四种组件意味着这四个模块都要做相应的修改) ...

（十九）Scrapy中基于Scrapy-redis组件实现分布式爬虫（非常详细）

c1007857613的专栏

05-08

2404

本节详细介绍了什么是分布式爬虫，什么是scrapy-redis，通过实例的方式，介绍了如何将普通的scrapy爬虫项目改造为scrapy-redis爬虫，从而实现分布式爬取，实现mysql数据库存储和分布式爬虫部署。

参与评论您还未登录，请先登录后发表或查看评论

scrapy CrawlSpider链接提取器, scrapy-redis分布式爬虫

weixin_34362991的博客

03-05

109

crawlspider 命令 1.创建scrapy工程：scrapy startproject projectName 2.创建爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com 　　指令多了 "-t crawl"，表示创建的爬虫文件是基于CrawlSpider这个类的，而不再是Spider这个基类。3.运行 scrapy craw...

Scrapy基于scrapy_redis实现分布式爬虫部署

热门推荐

MANKVIS的博客

03-26

3万+

准备工作1.安装scrapy_redis包,打开cmd工具,执行命令pip install scrapy_redis2.准备好一个没有BUG,没有报错的爬虫项目3.准备好redis主服务器还有跟程序相关的mysql数据库前提mysql数据库要打开允许远程连接,因为mysql安装后root用户默认只允许本地连接,详情请看此文章部署过程1.修改爬虫项目的settings文件在下载的scrapy_red...

scrapy-redis实现爬虫分布式爬取分析与实现

weixin_34085658的博客

03-14

110

本文链接：http://blog.csdn.net/u012150179/article/details/38091411 一 scrapy-redis实现分布式爬取分析所谓的scrapy-redis实际上就是scrapy+redis当中对redis的操作採用redis-pyclient。这里的redis的作用以及在scrapy-redis的方向我在自己fork的reposito...

爬虫--Scrapy-基于RedisSpider实现的分布式爬虫

weixin_30274627的博客

12-10

245

爬取网易新闻需求：爬取的是基于文字的新闻数据（国内，国际，军事，航空）先编写基于scrapycrawl 先创建工程 scrapy startproject 58Pro cd 58Pro 新建一个爬虫--基于一个scrapy scrapy genspider 58 www.xxx.com 先把基本功能测试完：再进行修改 selenium在scrapy中的应用 ...

Python基于Scrapy-Redis分布式爬虫+源代码+文档说明+数据库.zip

12-16

Python基于Scrapy-Redis分布式爬虫设计毕业源码案例设计开发环境：Python + Scrapy框架 + redis数据库程序开发工具： PyCharm 程序采用 python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取...

Python基于Scrapy+Redis分布式爬虫设计+源码案例源码.zip

08-30

毕业设计：Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis.zip 该项目是个人毕设项目，答辩评审分达到95分，代码都经过调试测试，确保可以运行！欢迎下载使用，可用于小白学习、进阶。该...

毕业设计+Python基于Scrapy+Redis分布式爬虫设计

最新发布

06-12

项目整体分为scrapy-redis分布式爬虫爬取数据、基于ElasticSearch数据检索和前端界面展示三大模块.zip

02-19

适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【附加价值】：项目具有较高的学习借鉴价值，也可直接拿来修改复刻。对于有一定基础或热衷于研究...

Scrapy-redis爬虫分布式爬取的分析和实现

09-09

所谓的scrapy-Redis实际上就是scrapy+redis，其中对redis的操作采用redis-py客户端。下面这篇文章详细介绍了Scrapy-redis爬虫分布式爬取的分析和实现，需要的朋友可以参考借鉴，下面来一起看看吧。

scrapy-Redis 分布式爬虫

qq_37193819的博客

07-27

303

抓取大量数据是时，一个机器爬取过于缓慢，所以需要多台机器一起进行爬取。 1. 使用scrapy框架搭建爬虫项目创建爬取B站视频信息的scrapy爬虫项目 middlewares.py文件设置中间件，定义随机的IP代理防止B站的IP屏蔽处理 2 pipeline.py文件设置连接的数据库，保存采集数据，数据库的属性在settings文件设置。 3 sett...

scrapy_redis分布式爬虫

askme_的博客

09-29

232

1.在命令行工具中进入自己的虚拟环境下载scrapy_redis工具包 2.打开自己的爬虫程序，找到settings文件，配置scrapy的调度器和过滤器就是在settings文件最后加入两句话: SCHEDULER = "scrapy_redis.scheduler.Scheduler" DUPEFILTER_CLASS = "s...

Scrapy-Redis分布式爬虫组件

weixin_42635252的博客

07-19

407

Scrapy-Redis介绍 Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫，就需要借助一个组件叫做Scrapy-Redis，这个组件正是利用了Redis可以分布式的功能，集成到Scrapy框架中，使得爬虫可以进行分布式。可以充分的利用资源（多个ip、更多带宽、同步爬取）来提高爬虫的爬行效率。 分布式爬虫的优点：可以充分利用多台机器的带宽；可以充分利用多台机器的ip地址...

scrapy-redis分布式爬虫

家有代码初写成的博客

07-17

641

第9章 scrapy-redis分布式爬虫

weixin_30832143的博客

05-11

123

9-1 分布式爬虫要点 1.分布式的优点充分利用多机器的宽带加速爬取充分利用多机的IP加速爬取速度问：为什么scrapy不支持分布式？答：在scrapy中scheduler是运行在队列的，而队列是在单机内存中的，服务器上爬虫是无法利用内存的队列做任何处理，所以scrapy不支持分布式。 2.分布式需要解决的问题 requests队列集中管理去重集...

21. 分布式爬虫Scrapy-Redis

01-03

189

1. 安装和远程链接redis pip install scrapy-redis ./redis-cli -h 192.168.1.27 -p 6379 2. scrapy-redis 架构图 3.

Scrapy-Redis分布式爬虫配置

Chasing__Dreams的博客

10-21

252

编写Scrapy-Redis分布式爬虫：要将一个Scrapy项目变成一个Scrapy-redis项目秩序修改以下三点就可以了：将爬虫的类从scrdapy.Spider变成scrapy_redis.spiders.RedisSpider;或者是从scrapy.CrawlSpider 变成scrapy_redis.spiders.RedisCrawlSpider。将爬虫中的start_urls...

Scrapy-Redis分布式爬虫构建与原理详解

Scrapy-redis分布式爬虫搭建理论详解 Scrapy是一个功能强大的通用爬虫框架，但其本身并不支持分布式爬取。为了优化Scrapy的性能并实现分布式，Scrapy-redis应运而生。它提供了一套基于Redis的扩展组件，用于简化...