一脚踹开 RAG 大门，深入它所面临的挑战-CSDN博客

本文链接：https://blog.csdn.net/2401_85377976/article/details/140487090

为什么是 RAG？

通俗来理解，RAG 就是给大模型加一个物理外挂，通过它来给大模型加持专业知识。

思路：构建几十万量级的数据，然后利用这些数据对大模型进行微调，以将额外知识注入大模型；

具体实现：加载文件 => 读取文本 => 文本分割 =>文本向量化 =>问句向量化 =>在文本向量中匹配出与问句向量最相似的 top k 个 =>匹配出的文本作为上下文和问题一起添加到 prompt 中 =>提交给 LLM 生成回答

RAG 优点呢就是简单粗暴，缺点就是这几十万量级的数据训练成本高，且融入到大模型的程度有限。

RAG 核心就是将用户知识库内容经过 embedding 存入向量知识库，然后用户每一次提问也会经过
embedding，利用向量相关性算法（例如余弦算法）找到最匹配的几个知识库片段，将这些
知识库片段作为上下文，与用户问题一起作为 promt 提交给 LLM 回答。

RAG 痛点和解决

Q1

1、文档切分粒度不好把控，既担心噪声太多又担心语义信息丢失；

Q2

2、在基于垂直领域表现不佳：主要在于一个是对 embedding 模型的基于垂直领域的数据进行微调；一个是对LLM 基于垂直领域的数据进行微调；

Q3

3、langchain 内置问答分句效果不佳；

一种是使用更好的文档拆分的方式（如项目中已经集成的达摩院的语义识别的模型及进
行拆分）；一种是改进填充的方式，判断中心句上下文的句子是否和中心句相关，仅添加相关度高
的句子；另一种是文本分段后，对每段分别及进行总结，基于总结内容语义及进行匹配；

Q4

4、如何尽可能召回与 query 相关的 Document 问题？

将本地知识切分成 Document 的时候，需要考虑 Document 的长度、Document embedding 质
量和被召回 Document 数量这三者之间的相互影响。

在文本切分算法还没那么智能的情况下，本地知识的内容最好是已经结构化比较好了，各个段落之间语义关联没那么强。Document 较短的情况下，得到的 Document embedding 的质量可能会高一些，通过 Faiss 得到的 Document 与 query 相关度会高一些。

Q5

5、如何让 LLM 基于 query 和 context 得到高质量的 response ？

尝试多个的 prompt 模版，选择一个合适的，但是这个可能有点玄学；用与本地知识问答相关的语料，对 LLM 进行 Finetune。

Q6

6、embedding 模型在表示 text chunks 时偏差太大问题；

一些开源的 embedding 模型本身效果一般，尤其是当 text chunk 很大的时候，强行变成一个简单的 vector 是很难准确表示的，开源的模型在效果上确实不如 openai Embeddings；

多语言问题，paper 的内容是英文的，用户的 query 和生成的内容都是中文的，这里有个语言之间的对齐问题，尤其是可以用中文的 query embedding 来从英文的 text chunking embedding 中找到更加相似的 top-k 是个具有挑战的问题

解决方法是用更小的 text chunk 配合更大的 topk 来提升表现，毕竟 smaller text chunk 用 embedding 表示起来 noise 更小，更大的 topk 可以组合更丰富的 context 来生成质量更高的回答；

多语言可以找一些更加适合多语言的 embedding 模型；

Q7

7、不同的 prompt，可能产生完全不同的效果问题；

prompt 是个神奇的东西，不同的提法，可能产生完全不同的效果。尤其是指令，指令型 llm 在训练或者微调的时候，基本上都有个输出模板，这个如果前期没有给出 instruction data 说明，需要做很多的尝试，尤其是希望生成的结果是按照一定格式给出的，需要做更多的尝试；

Q8

8、生成效果问题；

LLM 本质上是个“接茬”机器，你给上句，他补充下一句。

各家的 LLM 在理解 context 和接茬这两个环节上相差还是挺多的。

可以选择一些好玩的开源模型，比如 llama2 和 baichuan2，然后自己构造一些 domain dataset，做一些微调的工作，让 llm 更听你的话

Q9

9、如何更高质量地召回 context 喂给 llm；

解决方法：用更加细颗粒度地来做 recall，当然如果是希望在学术内容上来提升质量，学术相关的 embedding 模型、指令数据，以及更加细致和更具针对性的 pdf 解析都是必要的。

RAG 模块优化

从 RAG 的工作流中看，RAG 模块有：文档块切分、文本嵌入模型、提示工中、大模型生成。

不同模块，策略不同：

文档块切分：设置适当的块间重叠、多粒度文档块切分、基于语义的文档切分、文档块摘要。

文本嵌入模型：基于新语料微调嵌入模型、动态表征。

提示工中优化：优化模板增加提示词约束、提示词改写。

大模型迭代：基于正反馈微调模型、量化感知训练、提供大 context window 的推理模型。还可对 query 召回的文档块集合进行处理，如：元数据过滤、重排序减少文档块数量。

…

RAG 还有一些架构优化策略，比如利用知识图谱（KG）进行上下文增强、如何让大模型对召回结果进行筛选、以及引入多向量检索器等。

后续有机会再研究研究~~

OK，以上就是本次分享，欢迎点赞👍、收藏⭐、评论💬

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍