使用scrapy实现分布式爬取京东图书

MongoDB以及redis配置

本次使用了两台虚拟机,一台CentOS配置redis服务以及mongodb服务,一台Ubuntu进行数据的爬取。
在CentOS中mongodb命令行执行以下命令进行添加验证

> use admin
switched to db admin
> db.createUser({user: 'admin', pwd: 'admin233', roles: [{role: 'root', db: 'admin'}]})
Successfully added user: {
        "user" : "admin",
        "roles" : [
                {
                        "role" : "root",
                        "db" : "admin"
                }
        ]
}

同时对配置文件进行修改。命令:sudo vi /etc/mongod.conf
bindIP:127.0.0.1修改为bindIP:0.0.0.0以用来进行远程连接
同时添加内容security: authorization: enabled

在redis中也需要进行相关的配置,修改配置文件,命令:/etc/redis/redis.conf
bind 127.0.0.1这一行注释掉,然后找到requirepass foobared注释给去掉,foobared为当前密码,可自己进行配置。

Ubuntu需要安装以下关键包
scrapy :pip install scrapy
pymongo:pip install pymongo
redis-py:pip install redis

Scrapy实现分布式

配置好远程服务后,修改scrapy的代码进行分布式的配置。
setting.py文件中,添加如下2行代码

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

然后连接redis以及mongodb

REDIS_URL = "redis://:foobared@192.168.117.128:6379"
MONGO_URI = 'mongodb://admin:admin233@192.168.117.128:27017'

然后每台主机都执行一下scrapy crawl jd,启动爬虫,即可进行数据的爬取。
在这里插入图片描述
效果如图所示。
在这里插入图片描述
同时也存储到了CentOS的MongoDB中。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值