AI大模型对话（上下文）缓存能力

MavenTalk

已于 2024-07-02 17:25:31 修改

阅读量1k

点赞数 3

分类专栏： AI 文章标签：缓存月之暗面

于 2024-07-02 16:54:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hero272285642/article/details/140131022

版权

AI 专栏收录该内容

103 篇文章

订阅专栏

互联网应用中，为了提高数据获取的即时性，产生了各种分布式缓存组件，比如Redis、Memcached等等。

大模型时代，除非是免费模型，否则每次对话都会花费金钱来进行对话，对话是不是也可以参照缓存的做法来提高命中率，即时响应提高需求呢。

近日，月之暗面提出了上下文缓存的概念。

Context Caching （上下文缓存）是一种高效的数据管理技术，它允许系统预先存储那些可能会被频繁请求的大量数据或信息。这样，当您再次请求相同信息时，系统可以直接从缓存中快速提供，而无需重新计算或从原始数据源中检索，从而节省时间和资源。

不过定价还是比较贵的，按时长计算。特别是对于智能客户场景，用户提问的问题总归是趋于收敛的，所以可以节省不少资金花费。

在这里插入图片描述
同样，使用分布式缓存的做法，一样可以完成对话缓存，每次提问先经过模型比对，因为有语义理解能力，即便不是同一句话，但意思相同，一样可以认为是命中，命中后就可以直接从缓存中取出数据来响应用户。

Context Caching 特别适合于用频繁请求，重复引用大量初始上下文的情况，通过重用已缓存的内容，可以显著提高效率并降低费用。因为这个功能具有强烈的业务属性，我们下面简单列举一些合适的业务场景：

提供大量预设内容的 QA Bot，例如 Kimi API 小助手。
针对固定的文档集合的频繁查询，例如上市公司信息披露问答工具。
对静态代码库或知识库的周期性分析，例如各类 Copilot Agent。
瞬时流量巨大的爆款 AI 应用，例如哄哄模拟器，LLM Riddles。
交互规则复杂的 Agent 类应用，例如什么值得买 Kimi+ 等。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

MavenTalk 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。