前言
scrapy是python界出名的一个爬虫框架。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列调度,将起始的网址从start_urls里分离出来,改为从redis读取,多个客户端可以同时读取同一个redis,从而实现了分布式的爬虫。就算在同一台电脑上,也可以多进程的运行爬虫,在大规模抓取的过程中非常有效。
准备
既然这么好能实现分布式爬取,那都需要准备什么呢?
需要准备的东西比较多,都有:
- scrapy
- scrapy-redis
- redis
- mysql
- python的mysqldb模块
- python的redis模块
为什么要有mysql呢?是因为我们打算把收集来的数据存放到mysql中
1. scrapy安装
pip install scrapy
也可以clone下相应的github地址https://github.com/scrapy/scrapy/tree/1.1
2. scrapy-redis安装
pip install scrapy-redis
同样可以clone下相应的github地址https://g

本文介绍如何使用scrapy和scrapy-redis构建分布式爬虫。通过scrapy-redis,可以从redis中读取网址实现分布式爬取。准备工作中涉及scrapy、scrapy-redis的安装,以及redis、mysql、mysqldb和redis模块的配置。文中详细解释了scrapy-redis的特性和使用方式,并给出了58同城平板电脑信息爬虫的实例。
最低0.47元/天 解锁文章
1049

被折叠的 条评论
为什么被折叠?



