【大模型幻觉】CRAG：改进传统的 RAG，增加纠正机制提升生成文本的准确性

Debroon

已于 2024-02-20 11:50:13 修改

阅读量2.6k

点赞数 17

分类专栏：医疗大模型研发 + 慢病逆转文章标签：人工智能

于 2024-02-20 10:27:01 首次发布

本文链接：https://blog.csdn.net/qq_41739364/article/details/136181927

版权

283 篇文章

订阅专栏

CRAG：改进传统的 RAG，增加纠正机制提升生成文本的准确性

提出背景
CRAG 框架
轻量级检索评估器
大规模网络搜索
分解再重组算法

大型语言模型经常因依赖内部参数知识而产生不准确或幻觉化的内容。

对于大模型的内部错误，可以引入RAG，从外部知识来源（pdf、网页等）寻找支撑证据。

虽然RAG方法通过获取外部文档来丰富生成，从而补充了LLM，但其有效性显著依赖于这些检索文档的相关性。当检索不准确时，模型受到误导。

RAG的局限性：依赖检索文档的相关性和准确性，不准确的检索结果会损害模型性能。

CRAG延续了RAG的基本框架，即通过检索器从大量知识文档中检索相关信息，并将这些信息作为输入的一部分提供给生成器，以增强生成文本的相关性和准确性。

假设我们的任务是生成一个特定历史人物的详细传记。

基于RAG的系统可能直接从预先设定的知识库中检索与查询相关的文档，并基于这些文档生成传记。

如果检索到的文档不够准确或者包含过时信息，生成的传记可能会包含错误的事实，导致整体质量下降。

解法： 纠正检索增强生成（CRAG）。

核心组件：

流程步骤：

查询输入：用户输入查询，例如要求生成关于“艾萨克·牛顿”的传记。
检索阶段：使用CRAG框架，首先由检索器R检索出与“艾萨克·牛顿”相关的顶K篇文档。
检索评估：轻量级检索评估器评估这些文档的相关性得分，确定它们与查询的相关度。
行动触发：
- 如果文档被评估为相关（Correct），则通过知识精炼方法进一步提取关键知识条。
- 如果文档被评估为不相关（Incorrect），则丢弃这些文档，并通过网络搜索寻找更准确的补充知识源。
- 如果评估结果是模糊的（Ambiguous），则结合相关和不相关的处理策略，试图从现有文档中提取有价值的信息，同时寻找外部补充。
生成阶段：根据精炼后的知识或补充的外部知识，生成器G生成详细的传记。