课程的相关的介绍
1、分布式爬虫介绍
2、Redis的安装
3、scrapy-redis的介绍
4、scrapy-redis环境搭建
5、分布式写法
6、课堂案例
分布式爬虫介绍
分布式爬虫的优点 可以充分利用多台机器的带宽 可以充分利用多台机器的ip地址 多台机器,爬取效率更高 分布式爬虫必须要解决的问题 分布式爬虫是好几台机器在同时运行,如何保证不同的机器爬取页面的时候不会出现重复爬取的问题 分布式爬在不同的机器上运行,在把数据爬完后如何保存在同一个地方
Redis介绍 redis是一种支持分布式的nosql数据库,他的数据是保存在内存中,同时redis可以定时把内存数据同步到磁盘,即可将数据持久化,有丰富的数据结构(string,列表[队列和栈],集合,有序集合,hash表)等 帮助文档 url:http://redisdoc.com/index.html
将redis进行相关的可视化
scrapy-redis的介绍
scrapy-redis介绍 Scrapy-redis是一个基于redis的分布式爬虫框架。配合scrapy使用,让爬虫具有了分布式爬取的功能 官方文url:https://github.com/rmax/scrapy-redis scrapy-redis的安装 在线安装方式: pip install scrapy-redis -i http://pypi.douban.com/simple --trusted-host pypi.douban.com