基于Scrapy框架链接MongoDB和Redis数据库

一、首先数据库的选择
在我们爬取数少量数据时我们选择存在text文本文件或者json文件里,但是如果在公司中,一些项目动辄上百万数据,这时候我们就需要 将数据存储到数据库中,这时候我们选择MongoDB数据库
1、什么是MongoDB ?
MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。
MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。
在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。
MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。
2、主要特点
MongoDB的提供了一个面向文档存储,操作起来比较简单和容易。
你可以在MongoDB记录中设置任何属性的索引 (如:FirstName=“Sameer”, Address=“8 Gandhi Road”)来实现更快的排序。
你可以通过本地或者网络创建数据镜像,这使得MongoDB有更强的扩展性。
如果负载的增加(需要更多的存储空间和更强的处理能力),它可以分布在计算机网络中的其他节点上这就是所谓的分片。
Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组。
MongoDb 使用update()命令可以实现替换完成的文档(数据)或者一些指定的数据字段 。
Mongodb中的Map/reduce主要是用来对数据进行批量处理和聚合操作。
Map和Reduce。Map函数调用emit(key,value)遍历集合中所有的记录,将key与value传给Reduce函数进行处理。
Map函数和Reduce函数是使用Javascript编写的,并可以通过db.runCommand或mapreduce命令来执行MapReduce操作。
GridFS是MongoDB中的一个内置功能,可以用于存放大量小文件。
MongoDB允许在服务端执行脚本,可以用Javascript编写某个函数,直接在服务端执行,也可以把函数的定义存储在服务端,下次直接调用即可。
MongoDB支持各种编程语言:RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言。
MongoDB安装简单。
安装启动方法就不多介绍了,百度一大把
3、链接MongoDB数据库,要在scrapy框架项目里找到pipelines.py文件

import pymongo
#引入

class ZiruPipeline(object):#这个是创建项目是自动生成的类名,我们要在下面编写链接数据库的代码
    def __init__(self):
        # 连接数据库
        #保存到本地的数据库只需填写"localhost"即可,端口默认是27017如果你想保存到别的电脑,请输入那台电脑的IP地址
        self.client = pymongo.MongoClient("localhost")
 
        # 创建库,实例化数据库创建一个名为ziru的库
        self.db = self.client['ziru']
        # 创建表,命名为house
        self.table = self.db['house']
	#向数据库里面插值,item是一个字典格式,字段与解析内容对应的
    def process_item(self, item, spider):
        # 向数据库的表中插值
        self.table.insert(dict(item))
        return item

完成上述代码,只要你的字段没有问题,spider代码没问题,就可以将爬取的数据存到数据库了

二、Redis分布式爬取,存储
说道分布式就要有master和slaves
master的将任务存到一个队列里,然后slaves分别将任务取到手然后进项操作解析,在集中存储到数据库中
这样操作可以提高项目效率。
这个时候我们需要用到Ridis数据库
1、Redis 简介
Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。
Redis 与其他 key - value 缓存产品有以下三个特点:
Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。
Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。
Redis支持数据的备份,即master-slave模式的数据备份。

2、Redis 优势
性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。
丰富的数据类型 – Redis支持二进制案例的 Strings, Lists, Hashes, Sets 及 Ordered Sets 数据类型操作。
原子 – Redis的所有操作都是原子性的,意思就是要么成功执行要么失败完全不执行。单个操作是原子性的。多个操作也支持事务,即原子性,通过MULTI和EXEC指令包起来。
丰富的特性 – Redis还支持 publish/subscribe, 通知, key 过期等等特性。
3、Scrapy中master将任务url存储到Redis需要写的代码
(1)首先在settings进行配置
master的工作

#调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#redis服务器地址#master将数据存到本机的Redis数据库里,供slaves提取使用
REDIS_HOST = '127.0.0.1'
#redis端口号
REDIS_PORT = 6379
##开启队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

(2)
在spider的爬虫文件中需要如下编写
这个也是master的工作

#首先引入redis模块
from redis import Redis
#然后在class代码中初始时实例化redis数据库
redis = Redis()
#最后不管你代码怎么写,把最终获取到的数据添加保存到redis数据库中
 self.redis.lpush('ziru:start_urls', detail_url)#"表名:字段名"可以这样理解哈,注意冒号两边不能有空格,后面的detail_url就是要添加进去的数据

4、接下来就到了slaves的工作了
slaves负责从Redis数据库中取出工作任务
(1)一样要在settings中进行配置

#调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#redis服务器地址,**并且要保证master主机的Redis数据库保持开启状态**
REDIS_HOST = '**这个里面写入master的ip地址**'
#redis端口号
REDIS_PORT = 6379
##开启队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

(2)spider中的代码,将代码在原基础上进行修改
导入模块from scrapy_redis.spiders import RedisSpider

from scrapy_redis.spiders import RedisSpider
#class项目类名
class LaiquziruSpider(RedisSpider):
    name = '爬虫项目名,自己取名字'
    #这个是固定格式,冒号前后一定不能用空格,redis_key固定键
    redis_key = 'ziru:start_urls'
    def parse(self, response):
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值