[内附完整源码和文档] 基于scrapy-redis的分布式网络爬虫

第1章 引言
分布式是大数据时代流行的一个词,比如常见的分布式计算,分布式存储,分布式爬虫等等。

分布式爬虫,从字面的意义上来说是集群爬虫,就是将爬虫任务分配给多台机器同时进行处理,与之对应的是单机爬虫,单点部署,单点操作。分布式爬虫相当于将多个单机联系起来形成一个整体来完成工作,目的就是提高可用性、稳定性和性能,因为单机操作有CPU、IO和带宽等多重限制。

打造分布式爬虫的关键是调度,本设计采用消息队列的方式,使用scrapy-redis组件作为消息队列,从而实现分布式。

本报告的内容组织如下:第二节介绍Redis基础,包括Redis的安装和使用;第三节说明MongoDB集群的基本操作;分布式网络爬虫设计方案及源码分析是第四部分要陈述的内容;第五部分展示实验环境和最终实现的设计效果;第六部分是总结与展望。

第2章 Redis基础
2.1 Redis简介
Redis 是一个使用ANSI标准的C语言编写的开源、支持网络、基于内存的Key-Value存储数据库。根据DB-Engines网站的数据显示,Redis是最流行的键值对数据库。

Redis的外围由一个键、值映射的字典构成。与其他非关系型数据库的主要不同在于:Redis中值的类型不仅限于字符串类型,还支持一些抽象的数据类型,如字符串列表、无序不重复的字符串集合、键和值都为字符串的哈希表等。值的类型决定了值本身支持的操作,Redis支持不同无序、有序的列表,无序、有序的集合间的交集、并集等高级服务器端原子操作。

Redis支持主从同步。数据可以从主服务器向任意数量的从服务器上同步,从服务器可以是关联其他从服务器的主服务器。这使得Redis可执行单层树复制。从盘可以有意无意的对数据进行写操作。由于完全实现了发布/订阅机制&#x

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值