有了大模型,还需要 Cache 缓存吗?

本文介绍了GPTCache,一个针对GPT应用的开源缓存工具,通过向量存储加速查询,降低LLM调用成本。文章详细讲解了GPTCache的设计、与LLM的集成以及与LangChain的结合,提供了一场直播以深入剖析技术细节和实操案例。
摘要由CSDN通过智能技术生成

▼最近直播超级多,预约保你有收获

今晚直播:《GPTCahe构建分布式缓存平台实战

 1

为什么需要 Cache?

在互联网应用开发中,为了提高系统的查询性能,会通过多级缓存或者分布式缓存的方式来解决。在大语言模型领域,虽然 LLM 功能非常强大,但其使用成本也不低,尤其是 GPT-4,每次调用可能要花掉几毛钱,对企业海量调用来讲,实在是一笔不小的开支。

那么,是否有一种比较好的解决方案来解决这种情况,既能极大降低访问 LLM API 的成本,也能同时提高调用 LLM API 的请求效率和性能,GPTCache 就是专门解决这种问题而生的,对于事实性的 QA 问题对话,其实没必要每次都去调用模型的 API 获取一次结果,完全可以通过缓存调用一次即可,可大大节省成本,对于一些创造性比较强场景或者应用,也可以继续使用 temperature 参数来控制是否使用缓存还是直接调用 LLM API。

GPTCache 是一个开源工具,通过实现缓存来存储 LLM 生成的响应,从而提高基于 GPT 的应用程序的效率和速度。 它是一个用于存储 LLM 响应的语义缓存层。它可以为 LLM 相关应用构建相似语义缓存,当相似的问题请求多次出现时,可以直接从缓存中获取,在减少请求响应时间的同时也降低了 LLM 的使用成本。GPTCache 支持 OpenAI ChatGPT 接口和 LangChain 接口。

 2

GPTCache 构设计

GPTCache 采用 Embedding 嵌入算法将查询转换为向量,并使用向量存储进行相似性搜索。从而识别和检索类似或相关的查询结果,如下图所示。

c9cdaa8d97e6051d007af1a4ec8d6ffc.png

GPTCache 可与你的应用程序、你首选的 LLM(ChatGPT、LangChain)、缓存存储(SQLite、PostgreSQL、MySQL、MariaDB、SQL Server 和 Oracle)和向量存储(Faiss、Milvus、Ziliz Cloud)等配合使用。

在架构设计上,GPTCache 采用模块化设计构建,使用户可以轻松自定义其语义缓存。每个模块都有选项供用户选择,以满足他们的需求。包括:LLM 适配器、嵌入生成器、缓存存储、向量存储选型、缓存淘汰策略、相似度评估器等核心模块。

更详细的架构设计剖析,今晚20点直播进行,请同学点击下方按钮预约直播。

 3

LangChain + GPTCache =兼具低成本与高性能的 LLM

第一、LangChain 的缓存方式

LangChain 缓存是通过字符串匹配来实现的。也就是说,如果有两个请求字符串完全相同,那么收到后一个请求时,可以从缓存中检索出相应的数据。具体实现过程中使用了内存缓存(Memory Cache)、SQ Lite 缓存 (SQLite Cache)和 Redis 缓存(Redis Cache)。

LangChain 的缓存使用方法如下:

e149197d7bb2f456b21a5d903313d89d.png

LangChain 命中缓存的条件是两个 Prompts 必须完全相同。但是在实际使用中,这种情况十分罕见,因此很难命中缓存。这也意味着,我们还有很多空间可以用来提升缓存利用率,集成 GPTCache 就是方法之一。

第二、集成 GPTCache 缓存方式

集成 GPTCache 能够显著提升 LangChain 缓存模块的功能,增加缓存命中率,从而降低 LLM 使用成本和响应时间。GPTCache 首先将输入问题转化为 Embedding 向量,随后 GPTCache 会在缓存中进行向量近似搜索。获取向量相似性检索的结果后,GPTCache 会执行相似性评估,并将达到设置阈值的结果作为最终返回结果。可以通过调整阈值来调节 GPTCache 模糊搜索结果的准确性。

LangChain + GPTCache 的使用方式如下:

5b9f8200372550725d9b8d34e4209950.png

由于需要动手实际操作,更详细的实操案例剖析,放在今晚20点直播实操进行,直播精彩看点

1、RAG 检索增强生成架构及落地难点剖析

2、LangChain + GPTCache 缓存架构深度剖析

3、GPTCache 在 AI 电商数字人系统中应用案例实践

请同学点击下方按钮预约直播,咱们今晚20点直播见!

带你全面掌握 AIGC 技术体系:大模型架构内核、Fine-tuning 微调、LangChain 开发框架、Agent 开发、向量数据库、部署治理等核心技术,扫码一键全部预约直播

59c53afe817fbdc18cddd66094e2ad16.png

END

  • 22
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值