有了大模型，还需要 Cache 缓存吗？

最新推荐文章于 2024-08-10 22:51:38 发布

musicml

最新推荐文章于 2024-08-10 22:51:38 发布

阅读量877

点赞数 22

文章标签：缓存

本文链接：https://blog.csdn.net/musicml/article/details/135301535

版权

本文介绍了GPTCache，一个针对GPT应用的开源缓存工具，通过向量存储加速查询，降低LLM调用成本。文章详细讲解了GPTCache的设计、与LLM的集成以及与LangChain的结合，提供了一场直播以深入剖析技术细节和实操案例。

摘要由CSDN通过智能技术生成

▼最近直播超级多，预约保你有收获

今晚直播：《GPTCahe构建分布式缓存平台实战》

—1—

为什么需要 Cache？

在互联网应用开发中，为了提高系统的查询性能，会通过多级缓存或者分布式缓存的方式来解决。在大语言模型领域，虽然 LLM 功能非常强大，但其使用成本也不低，尤其是 GPT-4，每次调用可能要花掉几毛钱，对企业海量调用来讲，实在是一笔不小的开支。

那么，是否有一种比较好的解决方案来解决这种情况，既能极大降低访问 LLM API 的成本，也能同时提高调用 LLM API 的请求效率和性能，GPTCache 就是专门解决这种问题而生的，对于事实性的 QA 问题对话，其实没必要每次都去调用模型的 API 获取一次结果，完全可以通过缓存调用一次即可，可大大节省成本，对于一些创造性比较强场景或者应用，也可以继续使用 temperature 参数来控制是否使用缓存还是直接调用 LLM API。

GPTCache 是一个开源工具，通过实现缓存来存储 LLM 生成的响应，从而提高基于 GPT 的应用程序的效率和速度。它是一个用于存储 LLM 响应的语义缓存层。它可以为 LLM 相关应用构建相似语义缓存，当相似的问题请求多次出现时，可以直接从缓存中获取，在减少请求响应时间的同时也降低了 LLM 的使用成本。GPTCache 支持 OpenAI ChatGPT 接口和 LangChain 接口。

—2—

GPTCache 构设计

GPTCache 采用 Embedding 嵌入算法将查询转换为向量，并使用向量存储进行相似性搜索。从而识别和检索类似或相关的查询结果，如下图所示。

GPTCache 可与你的应用程序、你首选的 LLM（ChatGPT、LangChain）、缓存存储（SQLite、PostgreSQL、MySQL、MariaDB、SQL Server 和 Oracle）和向量存储（Faiss、Milvus、Ziliz Cloud）等配合使用。

在架构设计上，GPTCache 采用模块化设计构建，使用户可以轻松自定义其语义缓存。每个模块都有选项供用户选择，以满足他们的需求。包括：LLM 适配器、嵌入生成器、缓存存储、向量存储选型、缓存淘汰策略、相似度评估器等核心模块。

更详细的架构设计剖析，今晚20点直播进行，请同学点击下方按钮预约直播。

—3—

LangChain + GPTCache =兼具低成本与高性能的 LLM

第一、LangChain 的缓存方式

LangChain 缓存是通过字符串匹配来实现的。也就是说，如果有两个请求字符串完全相同，那么收到后一个请求时，可以从缓存中检索出相应的数据。具体实现过程中使用了内存缓存（Memory Cache）、SQ Lite 缓存（SQLite Cache）和 Redis 缓存（Redis Cache）。

LangChain 的缓存使用方法如下：

LangChain 命中缓存的条件是两个 Prompts 必须完全相同。但是在实际使用中，这种情况十分罕见，因此很难命中缓存。这也意味着，我们还有很多空间可以用来提升缓存利用率，集成 GPTCache 就是方法之一。

第二、集成 GPTCache 缓存方式

集成 GPTCache 能够显著提升 LangChain 缓存模块的功能，增加缓存命中率，从而降低 LLM 使用成本和响应时间。GPTCache 首先将输入问题转化为 Embedding 向量，随后 GPTCache 会在缓存中进行向量近似搜索。获取向量相似性检索的结果后，GPTCache 会执行相似性评估，并将达到设置阈值的结果作为最终返回结果。可以通过调整阈值来调节 GPTCache 模糊搜索结果的准确性。

LangChain + GPTCache 的使用方式如下：

由于需要动手实际操作，更详细的实操案例剖析，放在今晚20点直播实操进行，直播精彩看点：

1、RAG 检索增强生成架构及落地难点剖析

2、LangChain + GPTCache 缓存架构深度剖析

3、GPTCache 在 AI 电商数字人系统中应用案例实践

请同学点击下方按钮预约直播，咱们今晚20点直播见！

带你全面掌握 AIGC 技术体系：大模型架构内核、Fine-tuning 微调、LangChain 开发框架、Agent 开发、向量数据库、部署治理等核心技术，扫码一键全部预约直播！

END

musicml

关注

22
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
有了大模型，还需要 Cache 缓存吗？

▼最近直播超级多，预约保你有收获今晚直播：《GPTCahe构建分布式缓存平台实战》—1—为什么需要 Cache？在互联网应用开发中，为了提高系统的查询性能，会通过多级缓存或者分布式缓存的方式来解决。在大语言模型领域，虽然 LLM 功能非常强大，但其使用成本也不低，尤其是 GPT-4，每次调用可能要花掉几毛钱，对企业海量调用来讲，实在是一笔不小的开支。那么，是否有一种比较好的解决方案来解决这种情况...
复制链接

扫一扫