15种高级RAG技术（四）生成优化（思维链、通过 Self-RAG 使系统具备自我反思能力、通过微调忽略不相关内容）

本文链接：https://blog.csdn.net/Code1994/article/details/141649832

四、生成优化

生成优化包括改进生成最终用户响应的大型语言模型调用。这里最容易实现的成果是迭代提示并确定插入到生成提示中的最佳分块数量。我们使用 GPT-4 对 1000、3500 和 7000 个 token 的检索上下文 / 分块进行了 A/B 测试。我们发现，将 3500 个 token 的检索上下文插入到检索增强生成（RAG）提示中比其他选项略好。我们怀疑这个发现并非普遍适用，每个用例都有不同的最佳数量。在这一点上，可以考虑评估和改进大型语言模型适当处理它可能接收的不同类型文档（相关的、有关联的、不相关的等）的能力。理想情况下，一个 retrieval-robust 的 LLM 系统应当具备以下特性：

当检索到的上下文相关时，应提高模型性能。
当检索到的上下文不相关甚至与事实相反时，不应损害模型性能。
未知稳健性：当 LLM 收到一个它没有相应知识来回答的查询，并且在检索到的文档中未找到相关信息时，以‘未知’回应来承认其局限性的能力。

1、思维链

思维链（Chain-of-thought, CoT）提示通过推理增加了在存在噪声或无关上下文的情况下，LLM 得出正确响应的可能性。研究人员 Wenhao Yu 等人进一步发展了这一理念，提出了链式笔记（chain-of-noting[5]），他们微调了一个模型以生成“每个检索到的文档的连续阅读笔记。这一过程允许对文档与所提问题的相关性进行深入评估，并有助于综合这些信息以构建最终答案。”微调的模型是 LLaMA-7B，训练数据是使用 ChatGPT 创建的。

2、通过 Self-RAG 使系统具备自我反思能力

Self-RAG 是另一种基于微调的方法，其中语言模型在生成过程中被训练输出特殊的反思标记。反思标记可以是检索标记或批评标记。研究人员 Asai 等人详细描述了他们的方法：

“给定一个输入提示和之前的生成内容，Self-RAG 首先确定是否通过检索到的段落来增强后续生成会有所帮助。如果是，它会输出一个检索标记，按需调用检索模型。随后，Self-RAG 并行处理多个检索到的段落，评估其相关性，然后生成相应的任务输出。接着，它生成批评标记来批评自己的输出，并选择在事实性和整体质量方面最好的一个。”

3、通过微调忽略不相关内容

鉴于 LLM 通常没有明确地为 RAG 进行训练或调优，因此可以对模型进行微调以适应这种用例，合理地说可以提高模型忽略无关上下文的能力。论文《Making Retrieval-Augmented Language Models Robust to Irrelevant Context[6]》通过实验证明，即使是 1,000 个例子也足以训练模型，使其在面对无关上下文时保持鲁棒性，同时在有相关上下文的例子上保持高性能。

此论文还探索了使用自然语言推理（NLI）模型来识别无关的上下文。由于有些情况下无关的 RAG 上下文会对 LLM 的性能产生负面影响。NLI 模型可以用来过滤掉无关的上下文。这种技术的工作原理是，仅在假设（即使用问题和 LLM 生成的答案）被分类为由前提（即检索到的上下文或 RAG 结果）所蕴涵时，才使用检索到的上下文。