Scrapy系列十二：把爬取到的数据保存到redis数据库

最新推荐文章于 2022-07-11 07:35:00 发布

qq_41622603

最新推荐文章于 2022-07-11 07:35:00 发布

阅读量2.3k

点赞数 1

分类专栏： Python Scrapy 文章标签： python scrapy

本文链接：https://blog.csdn.net/qq_41622603/article/details/105434933

版权

Python 同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

Scrapy

17 篇文章 8 订阅

订阅专栏

本文代码基于系列八代码的基础上修改

1.安装redis

pip install -U redis==2.10.6

2.配置数据库连接信息

在settings.py文件加入数据库连接，属性名没有规定可以随便起

3.获取数据库配置，连接数据库

4.执行数据库操作

5.关闭客户端连接

6.加入到数据清洗的管道

完整代码

class RedisPipeline(object):
    def open_spider(self,spider):
        #第一个参数是settings.py里的属性，第二个参数是获取不到值的时候的替代值
        host = spider.settings.get("REDIS_HOST","localhost")
        port = spider.settings.get("REDIS_PORT",6379)
        db_index = spider.settings.get("REDIS_DB_INDEX",0)
        db_psd = spider.settings.get("REDIS_PASSWORD","")
        #连接数据库
        self.db_conn = redis.StrictRedis(host=host,port=port,db=db_index,password=db_psd)

    def process_item(self, item, spider):
        # 将item转换成字典
        item_dict = dict(item)
        # 将数据插入到集合
        self.db_conn.rpush("novel",item_dict)
        return item

    def close_spider(self,spider):
        #关闭连接
        self.db_conn.connection_pool.disconnect()

qq_41622603

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Scrapy系列十二：把爬取到的数据保存到redis数据库

本文代码基于系列八代码的基础上修改1.安装redispip install -U redis==2.10.62.配置数据库连接信息在settings.py文件加入数据库连接，属性名没有规定可以随便起3.获取数据库配置，连接数据库4.执行数据库操作5.关闭客户端连接6.加入到数据清洗的管道完整代码...
复制链接

扫一扫