分布式爬虫

课程的相关的介绍

1、分布式爬虫介绍

2、Redis的安装

3、scrapy-redis的介绍

4、scrapy-redis环境搭建

5、分布式写法

6、课堂案例

分布式爬虫介绍

分布式爬虫的优点 可以充分利用多台机器的带宽 可以充分利用多台机器的ip地址 多台机器,爬取效率更高 分布式爬虫必须要解决的问题 分布式爬虫是好几台机器在同时运行,如何保证不同的机器爬取页面的时候不会出现重复爬取的问题 分布式爬在不同的机器上运行,在把数据爬完后如何保存在同一个地方

Redis介绍 redis是一种支持分布式的nosql数据库,他的数据是保存在内存中,同时redis可以定时把内存数据同步到磁盘,即可将数据持久化,有丰富的数据结构(string,列表[队列和栈],集合,有序集合,hash表)等 帮助文档 url:http://redisdoc.com/index.html

将redis进行相关的可视化

scrapy-redis的介绍

scrapy-redis介绍 Scrapy-redis是一个基于redis的分布式爬虫框架。配合scrapy使用,让爬虫具有了分布式爬取的功能 官方文url:https://github.com/rmax/scrapy-redis scrapy-redis的安装 在线安装方式: pip install scrapy-redis -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值