一个带有简单去重的mongoDB数据库存储

最新推荐文章于 2024-07-12 06:34:22 发布

nickname existed

最新推荐文章于 2024-07-12 06:34:22 发布

阅读量649

点赞数

分类专栏：爬虫 mongoDB 文章标签： mongoDB存储

本文链接：https://blog.csdn.net/qq_42820395/article/details/82844158

版权

爬虫同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

mongoDB

1 篇文章 0 订阅

订阅专栏

上篇爬虫文章中我引入了一个mongochache，这里发一下源码并做下简介。

在这个存储app中，使用了数据序列化和压缩，但是由于爬取的内容不算多，所以我在实际的应用中将这两个作用给注释掉了。

在这里我简单的写入了增删改查的一些应用，有点简陋，但是.....，对于一般的数据而言应该能够满足，具体代码如下：

import pickle #对象序列化
import zlib #压缩数据
from datetime import datetime,timedelta  #设置缓存时间间隔
from pymongo import MongoClient
from bson.binary import Binary #mongoDB存储二进制的类型
import requests

class MongoCache:

    def __init__(self,client=None,expires=timedelta(days=30)):
        self.client=MongoClient('localhost')
        self.db=self.client.LaGou
        web_page=self.db.lagou
        self.db.lagou.create_index('timestamp',expireAfterSeconds=expires.total_seconds())

    def __setitem__(self, key, value):
        # 将数据使用pickle序列化，再使用zlib压缩转换成Binary，使用格林威治时间
        # record={'result':Binary(zlib.compress(pickle.dumps(value))),'timestamp':datetime.utcnow()}
        # 使用url作为key存入系统默认的_id字段，存入数据可
        self.db.lagou.update({'_id':key},{'$set':value},upsert=True)


    def __getitem__(self, item):    #字段的查询
        record=self.db.lagou.find_one({'_id':item})
        if record:
            return pickle.loads(zlib.decompress(record['result']))
        else:
            raise KeyError(item+'does not exit')

    def __contains__(self, item):
        """
        当调用 in ， not in 会调用该方法判断链接对于网址的数据是否在数据库中
        :param item:
        :return:
        """
        try:
            self[item]
        except KeyError:
            return False
        else:
            return True

    def clear(self):
        self.db.lagou.drop()

我是一个小白，这里肯定还有许多不足的地方，希望诸位加以指正，谢谢！