首先需要写好爬虫代码,确保爬虫可以顺利执行
分布式爬虫
1) 在爬虫的settings.py中添加下面两句话
SCHEDULER = “scrapy_redis.scheduler.Scheduler”
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
2) 在item_pipeline中添加下面一句话
‘scrapy_redis.pipelines.RedisPipeline’: 300
3) 在settings.py中添加下面一句话,用于配置redis
4)REDIS_URL = ‘redis://root:@192.168.9.211:6379’(自己的IP地址,Redis默认端口是6379)
5) 修改爬虫的类文件
6)from scrapy_redis.spiders import RedisSpider
7)类需要继承自RedisSpider
把start_urls给注释掉
添加下面一句
redis_key = ‘(项目名称):start_urls’
分布式用到的代码应该是同一套代码
1) 先把项目配置为分布式
2) 把项目拷贝到多台服务器中
3) 把所有爬虫项目都跑起来
4) 在redis中lpush你的网址即可
5) 效果:所有爬虫都开始运行,并且数据还都不一样
创建数据库用户(用户权限为 % 让从服务器能访问该数据库,注意:sql语句 % 两端需要加 引号):
grant all privileges on . to zhangsan@’%’ identified by ‘123456’;
刷新数据库权限
flush privileges;
设置redis主从
让从服务器连接:
命令:lpush redis_key的值 网址
注:
完整代码,爬去的为电影网站:
爬虫.py文件
import scrapy
from urllib.parse import urljoin
from XiaoDiaoSpider.items import MovieItem
from scrapy_redis.spiders import RedisSpider
class MovieSpider(RedisSpider):
name = 'movie'
allowed_domains = ['xiaopian.com']
# start_urls = [
# 'https://www.dy2018.com/html/gndy/dyzz/index.html'
# ]
redis_key = 'urls'
custom_settings = {
'ITEM_PIPELINES': {
'XiaoDiaoSpider.pipelines.Save2MysqlPipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 300,
},
'SCHEDULER': "scrapy_red