基于Scrapy框架链接MongoDB和Redis数据库

最新推荐文章于 2022-05-17 10:53:21 发布

大嘟督

最新推荐文章于 2022-05-17 10:53:21 发布

阅读量857

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_44240254/article/details/90327207

版权

python 专栏收录该内容

31 篇文章 1 订阅

订阅专栏

一、首先数据库的选择
在我们爬取数少量数据时我们选择存在text文本文件或者json文件里，但是如果在公司中，一些项目动辄上百万数据，这时候我们就需要将数据存储到数据库中，这时候我们选择MongoDB数据库
1、什么是MongoDB ?
MongoDB 是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。
MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。
在高负载的情况下，添加更多的节点，可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。
MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档，数组及文档数组。
2、主要特点
MongoDB的提供了一个面向文档存储，操作起来比较简单和容易。
你可以在MongoDB记录中设置任何属性的索引 (如：FirstName=“Sameer”, Address=“8 Gandhi Road”)来实现更快的排序。
你可以通过本地或者网络创建数据镜像，这使得MongoDB有更强的扩展性。
如果负载的增加（需要更多的存储空间和更强的处理能力），它可以分布在计算机网络中的其他节点上这就是所谓的分片。
Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记，可轻易查询文档中内嵌的对象及数组。
MongoDb 使用update()命令可以实现替换完成的文档（数据）或者一些指定的数据字段。
Mongodb中的Map/reduce主要是用来对数据进行批量处理和聚合操作。
Map和Reduce。Map函数调用emit(key,value)遍历集合中所有的记录，将key与value传给Reduce函数进行处理。
Map函数和Reduce函数是使用Javascript编写的，并可以通过db.runCommand或mapreduce命令来执行MapReduce操作。
GridFS是MongoDB中的一个内置功能，可以用于存放大量小文件。
MongoDB允许在服务端执行脚本，可以用Javascript编写某个函数，直接在服务端执行，也可以把函数的定义存储在服务端，下次直接调用即可。
MongoDB支持各种编程语言:RUBY，PYTHON，JAVA，C++，PHP，C#等多种语言。
MongoDB安装简单。
安装启动方法就不多介绍了，百度一大把
3、链接MongoDB数据库，要在scrapy框架项目里找到pipelines.py文件

import pymongo
#引入

class ZiruPipeline(object):#这个是创建项目是自动生成的类名，我们要在下面编写链接数据库的代码
    def __init__(self):
        # 连接数据库
        #保存到本地的数据库只需填写"localhost"即可，端口默认是27017如果你想保存到别的电脑，请输入那台电脑的IP地址
        self.client = pymongo.MongoClient("localhost")
 
        # 创建库，实例化数据库创建一个名为ziru的库
        self.db = self.client['ziru']
        # 创建表，命名为house
        self.table = self.db['house']
	#向数据库里面插值，item是一个字典格式，字段与解析内容对应的
    def process_item(self, item, spider):
        # 向数据库的表中插值
        self.table.insert(dict(item))
        return item

完成上述代码，只要你的字段没有问题，spider代码没问题，就可以将爬取的数据存到数据库了

二、Redis分布式爬取，存储
说道分布式就要有master和slaves
master的将任务存到一个队列里，然后slaves分别将任务取到手然后进项操作解析，在集中存储到数据库中
这样操作可以提高项目效率。
这个时候我们需要用到Ridis数据库
1、Redis 简介
Redis 是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。
Redis 与其他 key - value 缓存产品有以下三个特点：
Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。
Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。
Redis支持数据的备份，即master-slave模式的数据备份。

2、Redis 优势
性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。
丰富的数据类型 – Redis支持二进制案例的 Strings, Lists, Hashes, Sets 及 Ordered Sets 数据类型操作。
原子 – Redis的所有操作都是原子性的，意思就是要么成功执行要么失败完全不执行。单个操作是原子性的。多个操作也支持事务，即原子性，通过MULTI和EXEC指令包起来。
丰富的特性 – Redis还支持 publish/subscribe, 通知, key 过期等等特性。
3、Scrapy中master将任务url存储到Redis需要写的代码
（1）首先在settings进行配置
master的工作

#调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#redis服务器地址#master将数据存到本机的Redis数据库里，供slaves提取使用
REDIS_HOST = '127.0.0.1'
#redis端口号
REDIS_PORT = 6379
##开启队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

（2）
在spider的爬虫文件中需要如下编写
这个也是master的工作

#首先引入redis模块
from redis import Redis
#然后在class代码中初始时实例化redis数据库
redis = Redis()
#最后不管你代码怎么写，把最终获取到的数据添加保存到redis数据库中
 self.redis.lpush('ziru:start_urls', detail_url)#"表名：字段名"可以这样理解哈，注意冒号两边不能有空格，后面的detail_url就是要添加进去的数据

4、接下来就到了slaves的工作了
slaves负责从Redis数据库中取出工作任务
（1）一样要在settings中进行配置

#调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#redis服务器地址，**并且要保证master主机的Redis数据库保持开启状态**
REDIS_HOST = '**这个里面写入master的ip地址**'
#redis端口号
REDIS_PORT = 6379
##开启队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

（2）spider中的代码，将代码在原基础上进行修改
导入模块from scrapy_redis.spiders import RedisSpider

from scrapy_redis.spiders import RedisSpider
#class项目类名
class LaiquziruSpider(RedisSpider):
    name = '爬虫项目名，自己取名字'
    #这个是固定格式，冒号前后一定不能用空格，redis_key固定键
    redis_key = 'ziru:start_urls'
    def parse(self, response):