MongoDB数据定期缓存及自动更新到类属性的实现方法

需求:

由于业务需求,需要从mongodb中获取全量数据,但由于mongodb数据每天都会有更新,所以需要定时获取数据;一开始的方案如下:
while True:
# 每个小时就从mongodb下载数据
if 时间等于整点:下载mongodb数据;

方案的缺点:

  1. 成本较高,经常性的要下载数据,影响效率。 这里可以采用缓存机制,减少不必要的重复下载。
  2. 调用时不简洁,需要加入条件语句进行判断,是否需要更新变量值。

实现:

设计了一个类让用户使用起来无感知,用户只要用指定变量就OK了。

from threading import Lock
from pymongo import MongoClient
from app.internal.component.logger import logger
from app.internal.component.configer import settings
from cachetools import TTLCache, cachedmethod
from apscheduler.schedulers.background import BackgroundScheduler


class MongoDBCache:
    def __init__(self, db, collection, cache_size=100, ttl=3600, refresh_interval=300):
        logger.info(f'mongo source init load db: {db}, collection: {collection}')
        self.client = MongoClient(settings.mongo.uri)
        self.db = self.client.get_database(db)
        self.collection = self.db.get_collection(collection)
        self.cache = TTLCache(maxsize=cache_size, ttl=ttl)
        self.cached_data = self.get_data()  # 拉取数据到缓存

        # 创建后台任务调度器
        self.scheduler = BackgroundScheduler()
        self.scheduler.add_job(self.invalidate_cache, 'interval', seconds=ttl)
        self.scheduler.start()

        #  创建锁
        self.lock = Lock()
        logger.info(f'mongo source load over db: {db}, collection: {collection}')

        # 启动定时刷新数据任务
        self.refresh_data_periodically(refresh_interval)

    @cachedmethod(lambda self: self.cache)
    def get_data(self, query=None):
        # 从 MongoDB 获取数据,并自动缓存结果
        return list(self.collection.find(query))

    def refresh_data_periodically(self, interval, query=None):
        # 添加一个定时任务,定期刷新缓存数据
        self.scheduler.add_job(self.fetch_and_store_data, 'interval', seconds=interval, args=[query])

    def fetch_and_store_data(self, query):
        # 获取数据并存储在属性中
        logger.info(f'update data from {self.db}:{self.collection}')
        with self.lock:
            self.cached_data = self.get_data(query)

    def invalidate_cache(self):
        self.cache.clear()

    def stop_cache_refresh(self):
        self.scheduler.shutdown()

    def __del__(self):
        self.stop_cache_refresh()
        self.client.close()


if __name__ == "__main__":
    cache = MongoDBCache('GPTContext', 'xxxxxx', cache_size=100, ttl=3600, refresh_interval=60)

    import time

    while True:
        print(len(cache.cached_data))
        time.sleep(10)  # 每10秒打印一次缓存的数据
  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值