RAG最佳实践：一篇让你不再迷茫的指南

大靠山

于 2025-05-05 20:18:01 发布

阅读量740

点赞数 8

文章标签：算法人工智能前端 java 数据库

本文链接：https://blog.csdn.net/m0_59235245/article/details/147722049

版权

RAG（检索增强生成）流程复杂，涉及多种子模块和方法组合——究竟哪种方案才是最佳实践？

🧩 RAG典型流程拆解

⚙️ 完整流程如图所示

None

1️⃣ 查询分类：判断是否需要检索（省时间！）
2️⃣ 检索：用语义相似度找相关文档
3️⃣ 重排序：让最相关的文档排到前面
4️⃣ 重组：调整文档顺序优化LLM输入
5️⃣ 摘要：压缩冗余信息，提升生成效率
（还涉及分块策略、嵌入模型、向量数据库等关键选择）

💡 我的真实想法：RAG不是简单“检索+生成”，每个模块的细节设计都会显著影响最终效果。

✅ 最佳实践逐模块解析

1️⃣ 查询分类

None

❗️ 为什么重要？
LLM本身具备一定知识，盲目检索会增加延迟。论文将任务分为15类，自动判断是否需要检索：

✅ 无需检索：用户提供完整信息的任务（如“翻译这句话”）
❗️ 需要检索：涉及模型未知知识（如“2023年诺贝尔奖得主是谁？”）
⚙️ 实现方案：训练一个分类器，准确率高达95%！

None

2️⃣ 分块策略

None

三种分块方式对比：

句子级分块（推荐✔️）：平衡语义完整性与效率
语义分块（LLM划分）：更精准但耗时
Token分块（简单但可能割裂语义）
🧠 关键发现：

块大小：175 token的小块召回率高，512 token的大块上下文更丰富重叠20 token可避免信息断裂

3️⃣ 检索优化

None

三大黑科技：

HyDE：用LLM生成“伪文档”增强检索（效果最佳🌟）
混合检索：结合稀疏检索（BM25）和密集检索（嵌入向量）
查询重写/分解：让模糊提问变精准
⚡️ 推荐方案：HyDE + 混合检索（但纯混合检索性价比更高）

4️⃣ 重排序与摘要

None

重排序：monoT5综合表现最佳，TILDEv2适合快速实验
摘要：Recomp碾压其他方案，但会牺牲些许延迟
📌 我的私藏技巧：尝试“逆向重组”（Reverse Packing），把关键信息放在输入的开头或结尾——LLM更容易捕捉重点！

🏆 两种推荐方案

根据场景需求二选一：

模块	高性能方案	均衡方案
检索	HyDE + 混合检索	纯混合检索
重排序	monoT5	TILDEv2
重组	Reverse	Reverse
摘要	Recomp	Recomp

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述