CAG 新范式来了！颠覆RAG? CAG 如何让大模型更快、更准、更智能

最新推荐文章于 2025-04-18 14:01:34 发布

小天才学习机打游戏

最新推荐文章于 2025-04-18 14:01:34 发布

阅读量1.1k

点赞数 10

文章标签：人工智能深度学习机器学习 linux 运维

本文链接：https://blog.csdn.net/m0_59164520/article/details/145746885

版权

1. RAG的弊端

RAG 的基本原理是通过外部知识库获取信息，并将其整合到 LLM 的生成过程中。然而，随着应用场景的多样化，RAG 的局限性也日益突出：实时查询导致的响应延迟、文档筛选的误差风险，以及系统设计的复杂性，都在一定程度上影响了其性能和可靠性。

2. 什么是CAG

最近，一篇研究论文提出了一种全新的框架——缓存增强生成（Cache-Augmented Generation，CAG）。与传统的 RAG 方法不同，CAG 摒弃了实时检索的依赖，转而采用预先加载数据和计算缓存的方式，使得 LLM 能够在需要时快速调用这些信息，显著提升了处理速度。这一创新为知识密集型任务开辟了一条更高效的路径。

3. 工作原理

CAG 的运行机制可以划分为三个关键步骤：

知识预加载：首先，将特定领域的文档进行预处理，调整其格式以适应大模型的上下文窗口。随后，这些文档被编码为键值对（KV Cache）并存储起来，供后续调用。这一步骤的计算开销仅在文档处理时产生，后续查询可直接利用已缓存的数据。
推理生成：在推理环节，预先计算的键值缓存与用户查询一同输入模型，模型基于这些缓存内容生成响应。由于无需实时检索，这一过程显著降低了延迟，并减少了数据选择错误的可能性。
缓存更新：为了确保系统的高效运行，缓存可以在多次推理后进行快速重置。由于 KV Cache 是以追加方式扩展的，重置操作只需截断新增的令牌，而无需重新加载整个缓存，从而保持了系统的轻量性和灵活性。

4. 对比RAG

上图的上半部分展示了 RAG 的处理过程，涉及推理阶段的实时检索和相关文本的引入；而下半部分则展示了 CAG 的方法，它通过预先加载 KV 缓存，省去了推理时的检索步骤和相关文本的引入。

5. 实验结果

为了验证CAG的效果，研究者们对其进行了大量实验，比较了CAG与传统RAG（基于BM25的稀疏检索和OpenAI的密集检索）的性能。

数据源：本研究采用了SQuAD 1.0和HotPotQA这两种包含各类问答任务的数据集。
评定准则：以BERTScore为基准进行评估，从而对比生成文本与实际答案的相似性。

实验最终成果如下：

优越的性能：在多数测试环节中，CAG算法超过了传统RAG技术，尤其在HotPotQA数据集的应用上，凭借全面理解上下文的优点，CAG显示出明显优于依赖检索的RAG的性能。
推断时间减少：由于无需实时检索，CAG显得在推断时间上有了大幅度降低，特别是在处理大量文件时，响应速度有了显著提升。

6. 适用场景

知识库的规模有限且可管理：在处理的文档或知识体量较小的情况下，CAG能够轻松应对。
追求高效率：在需要快速反馈的应用场景中，CAG的优势更为明显。
追求全面的上下文理解：CAG能让模型对所有知识有更深入的把握，从而产生更精确、更统一的回答。

7. 总结

CAG 给我感觉就是longcontext，只不过是套了层缓存的壳。对于问答公式{context} + prompt + query，CAG对{context}部分的KV提前缓存， RAG的{context}部分是动态的。从目前来看，CAG在我的项目中应用比较有限，但是可能在不久的将来，我们可能会看到CAG与更多先进技术的结合，为实际应用带来更强大的智能服务。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述