MongoDB以及redis配置
本次使用了两台虚拟机,一台CentOS配置redis服务以及mongodb服务,一台Ubuntu进行数据的爬取。
在CentOS中mongodb命令行执行以下命令进行添加验证
> use admin
switched to db admin
> db.createUser({user: 'admin', pwd: 'admin233', roles: [{role: 'root', db: 'admin'}]})
Successfully added user: {
"user" : "admin",
"roles" : [
{
"role" : "root",
"db" : "admin"
}
]
}
同时对配置文件进行修改。命令:sudo vi /etc/mongod.conf
把bindIP:127.0.0.1
修改为bindIP:0.0.0.0
以用来进行远程连接
同时添加内容security: authorization: enabled
在redis中也需要进行相关的配置,修改配置文件,命令:/etc/redis/redis.conf
把bind 127.0.0.1
这一行注释掉,然后找到requirepass foobared
的注释给去掉,foobared为当前密码,可自己进行配置。
Ubuntu需要安装以下关键包:
scrapy :pip install scrapy
pymongo:pip install pymongo
redis-py:pip install redis
Scrapy实现分布式
配置好远程服务后,修改scrapy的代码进行分布式的配置。
在setting.py文件中,添加如下2行代码
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
然后连接redis以及mongodb
REDIS_URL = "redis://:foobared@192.168.117.128:6379"
MONGO_URI = 'mongodb://admin:admin233@192.168.117.128:27017'
然后每台主机都执行一下scrapy crawl jd
,启动爬虫,即可进行数据的爬取。
效果如图所示。
同时也存储到了CentOS的MongoDB中。