如何做场景RAG问答应用的评测?

最新推荐文章于 2025-04-03 15:39:40 发布

小天才学习机打游戏

最新推荐文章于 2025-04-03 15:39:40 发布

阅读量1.2k

点赞数 28

文章标签： notion 金融数据库 transformer 深度学习

本文链接：https://blog.csdn.net/m0_59164520/article/details/141968591

版权

摘要

检索增强生成（RAG）最近成为一种有前途的解决方案，可以缓解大语言模型（大语言模型）缺乏知识的缺陷。然而，现有的 RAG 数据集并不能充分代表现实世界问答 (QA) 任务的多样性和动态性质。为了弥补这一差距，我们引入了综合 RAG 基准 (CRAG)，这是一个包含 4,409 个问答对和模拟 API 的事实问答基准，用于模拟网络和知识图 (KG) 搜索。CRAG 旨在封装跨五个领域和八个问题类别的各种问题，反映从流行到长尾的各种实体受欢迎程度，以及从几年到几秒的时间动态。我们对此基准的评估凸显了与完全值得信赖的质量保证之间的差距。尽管最先进的大语言模型在 CRAG 上的准确率达到 ≤34%，但以直接的方式添加 RAG 只能将准确率提高到 44%。最先进的行业 RAG 解决方案仅回答63%问题，没有任何幻觉。CRAG 还揭示了回答有关动态性较高、受欢迎程度较低或复杂性较高的事实的问题时的准确性要低得多，这表明了未来的研究方向。CRAG 基准为 2024 年 KDD Cup 挑战奠定了基础，在比赛的前 50 天内吸引了数千名参与者和提交的作品。我们致力于维护 CRAG，为研究社区提供服务，推进 RAG 解决方案和通用 QA 解决方案。

1简介

大型语言模型 (大语言模型) 改变了自然语言处理 (NLP) 任务的格局，尤其是问答 (QA) [27,15,14]。尽管取得了进展，幻觉问题仍然是一个重大挑战；大语言模型可能生成缺乏事实准确性或基础的答案[19, 9]。研究表明，GPT-4 在回答涉及缓慢变化或快速变化事实的问题时的准确率低于 15%[25]；即使对于稳定（不变）的事实，GPT-4 在回答涉及躯干到尾巴（不太受欢迎）实体的问题时的准确性也低于 35% [21]。因此，克服幻觉成为构建可靠的 QA 系统的首要任务[9, 8]。

图1：使用大语言模型 (a) 不使用 RAG 与 (b) 使用 RAG 进行 QA。

检索增强生成（RAG） [7,13,5]最近出现作为缓解大语言模型缺乏知识的缺陷的有前景的解决方案，并吸引了很多人受到学术界研究和工业界的关注。给定一个问题，RAG 系统会搜索外部来源以检索相关信息，然后提供有依据的答案[7,13,6]（参见图1以了解说明）。尽管具有潜力，RAG 仍然面临许多挑战，例如选择最相关的信息、减少问答延迟以及合成信息来回答复杂的问题。

目前缺少一个全面的基准来推进该领域的持续研究工作。传统的 QA 基准，例如 Natural Questions[12]、TriviaQA [10] 和 MS MARCO [3] 在过去十年中已经实现了先进的 QA但没有充分体现 RAG 面临的多样化和动态挑战。专注于大语言模型或RAG的新基准测试，例如FreshQA[25]和RGB [5]，通常针对大语言模型的某些功能，并且仅包含一些功能一百个查询。我们工作的目标是建立一个全面的基准来推动该地区向前发展。

大语言模型的 QA 良好基准是什么？我们考虑五个关键特征。

现实性：首先，一个好的基准应能最好地反映真实使用案例。换句话说，在基准测试中达到高指标的解决方案在实际场景中也应该表现良好。例如，RAG 基准中的问题应类似于人们在现实世界的 QA 场景中提出的问题。
丰富性：基准测试应包含一组不同的实例类型，涵盖常见用例和一些复杂且高级的用例，以代表现实世界的挑战并揭示现有解决方案可能存在的局限性。
洞察力：基准测试应能够轻松理解不同数据片段的性能，反映解决方案应对不同类型挑战的能力。
可靠性：基准应允许对指标进行可靠的评估：基本事实应准确；指标应很好地体现模型的性能；评估应简单可靠，计算的指标应具有统计意义。
长期性：最后，为了能够长期进行研究和实验比较，基准测试中的场景和数据不应很快过期，最好应随着时间的推移而刷新和改进。

我们努力创建一个具有上述所有功能的基准测试，我们将其称为CRAG – RAG 综合基准测试。我们的工作做出了三个贡献。

我们的第一个贡献是数据集本身（第 3 节）。CRAG 包含来自五个领域的丰富 4,409 个 QA 对：金融、体育、音乐、电影和开放领域。除了简单事实问题（询问实体的属性）之外，CRAG 还包含七种类型的复杂问题来涵盖真实的用户查询：条件问题、比较问题、聚合问题、多跳问题、设置查询、后处理重问题和错误前提问题。CRAG 反映了从流行到长尾的各种实体受欢迎程度，时间跨度从几秒到几年不等，可以轻松深入挖掘见解。在生成问题时，我们参考了智能助理用例，以确保问题切合实际，对问题进行释义以增加表达的多样性，并手动验证基本事实确保可靠性。

除了 QA 对之外，CRAG 还提供模拟 API 来模拟从各种可用信息中进行检索。这包括从真实搜索引擎（Brave Search API[4])返回的每个问题最多 50 个完整的 HTML 页面，以及具有 260 万个实体的模拟 KG。对于模拟知识图谱，我们特意确保检索候选者反映现实设置中的噪声。

我们的第二个贡献是允许可靠比较的评估机制。我们设计了 3 个任务来测试 RAG 解决方案中的不同组件：Web 检索、结构化查询和摘要（第 2 节）。我们的评分系统不是计算正确回答问题的百分比，而是区分幻觉答案和缺失答案，并对前者给予更高的惩罚，因为它对破坏用户信任的危害更大。我们还设计了一种有效的自动评估机制，以实现快速评估和迭代（第4节）。

我们的第三个贡献是对简单的 RAG 解决方案和 RAG 行业最先进的解决方案进行全面评估（第 5 节）。尽管最先进的大语言模型在 CRAG 上的准确率达到 ≤34%，但以直接的方式添加 RAG 只能将准确率提高到 44%。最先进的行业RAG解决方案仅回答63%问题，没有任何幻觉，但在回答有关动态性较高、受欢迎程度较低或复杂性较高的事实的问题时，准确性仍然较低。这些评估有两个作用：首先，它们证明 CRAG 具有适当的难度级别，并允许从基准纳入的多样性的不同维度中得出见解；其次，他们强调了完全值得信赖的质量保证系统的差距和研究方向。

CRAG 基准为 KDD Cup 2024 挑战奠定了基础1，在比赛的前 50 天内吸引了数千名参与者和提交的作品。我们致力于维护 CRAG，为研究社区提供服务，推进 RAG 解决方案和通用 QA 解决方案。

与现有基准的比较。表1将CRAG与现有的事实问答基准进行了比较，这说明了CRAG基准的几个优点：覆盖面广、使用模拟API进行真实测试、动态问题处理、多样化的事实流行度以及维基百科之外的广泛性。

这些功能使 CRAG 成为测试 RAG 系统和广泛的 QA 系统的强大且多功能的基准，提供一个共享测试平台来评估这些系统如何处理现实世界、动态和多样化的信息检索和综合挑战，以实现可靠的基于 LLM 的问答。

表格1：将 CRAG 与事实问答的现有基准进行比较。

2问题描述

RAG QA 系统将问题𝑄作为输入并输出答案𝐴；答案是由大语言模型根据从外部来源检索的信息或直接从模型内含的知识生成的。答案应该提供有用的信息来回答问题，而不增加任何幻觉。

我们设计了三个任务。它们共享同一组（问题、答案）对，但可用于检索以增强 QA 的外部数据不同。在这里，我们提供了可在质量检查中利用的内容，以确保公平比较。我们在第 3 节中描述了如何生成数据。

任务 1：检索总结。在任务 1 中，我们为每个问题提供最多五个网页。这些网页可能（但不能保证）与该问题相关。该任务旨在测试 RAG 系统的答案生成能力。

任务 2：KG 和 Web 检索增强。在任务 2 中，我们还提供模拟 API 来访问底层模拟 KG 的信息。模拟知识图谱存储与问题相关的结构化数据；问题的答案可能存在于模拟 KG 中，也可能不存在。模拟 API 获取输入参数（通常从问题中解析），并提供来自模拟知识图谱的结构化数据以支持答案生成。此任务测试 RAG 系统 1) 查询结构化数据源和 2) 综合不同来源的信息的效果。

任务 3：端到端 RAG。与任务 2 类似，任务 3 也提供 Web 搜索结果和模拟 API 作为检索候选，但提供 50 网页作为候选，而不是 5。较大的网页集更有可能提供回答问题所需的信息，但同时也更有可能包含噪音。因此，任务 3 另外测试了 RAG 系统如何对大量检索结果进行排序。

这三项任务均在前一项任务的基础上进行了补充，允许测试端到端 RAG 系统的不同功能。

3数据集描述

表2：CRAG 问题类型的定义。

CRAG包含两部分数据：QA对和检索内容。我们现在描述数据的每个部分。

3.1问答对

CRAG涵盖五个领域：金融、体育、音乐、电影和开放领域，八种题型，全部为英文。问题类型列于表2中。我们根据底层知识图谱和网页内容构建了问答对。

由 KG 构建的 QA 对。我们根据公开数据收集一组实体，然后根据选定的实体类型和关系创建 600 多个问题模板，从而从 KG 构建了 QA 对。接下来，我们从 KG 中按照 [21] 采样具有不同流行度（头部、躯干和尾部）的实体来填充模板并生成完整的问题和答案。

根据网页内容构建的 QA 对。我们要求注释者写下用户可能会问的问题（例如，“2023 年最受欢迎的动作电影”），并根据相应的网络搜索结果创建 QA 对。

通过上述方法，我们收集了 2,425 个Web 问题和 1,984 个KG 问题，其中 661、658 和 665 KG问题分别包含head、torso和tail实体。表3和4总结了问题在不同维度的分布。每个维度切片的大小（例如，快速变化的事实）使我们能够在大多数情况下获得具有 <5% 误差幅度（置信度为 95%）的指标。动态分布大致反映了领域的性质(例如，金融的实时问题比其他领域多得多）。动态类别的定义请参见附录A.1.2。

表3：每个动态类别的问题数量和百分比（%，括号内）由手动决定。金融和体育领域的问题是最实时和快速变化的。

表 4：每种问题类型的问题数量和百分比（%，括号内）由手动决定。简单题和简单带条件题构成所有题中的43%。

3.2检索内容

我们提供了两种类型的检索内容来模拟 RAG 的实际场景：网页搜索和知识图谱搜索。

网络搜索结果。对于每个问题，我们使用问题文本作为搜索查询，并存储来自 Brave 搜索 API [4] 的最多 50 个 HTML 页面。示例请参见附录A.1.4中的表8。我们使用基于启发式的方法来估计网络搜索召回率(50网页）：首先检查是否在50个页面中找到了真实答案URL；如果没有，则搜索页面片段或内容中是否包含基本事实中的事实。 Web 问题的估计召回率为 84%，而 KG 问题的估计召回率为 63%（附录 A.1.5 中的表 9），这与我们的直觉一致，即 KG 问题中的躯干和尾部实体可能不包括在返回的 50 个页面中。

模拟KGs。我们创建了模拟KGs，其中包含用于生成问题的公开KG数据、随机选择的同类型实体，以及名称相似的 "硬否定 "实体（例如，“幻影"为"歌剧幻影”）。

模拟 API。我们使用预定义参数创建了模拟 API，以支持模拟 KG 中的结构化搜索。例如，对于询问股票价格的查询，示例模拟 API 的形式为 get_price_history(ticker)。

生成的数据总共包含 220K 个网页、260 万个实体的 KG 和 38 个 Mock API。

4指标和评估

在本节中，我们将介绍评估 RAG 系统的指标，并在附录 A.2.3 中简要描述 2024 年 Meta KDD 杯挑战赛。

4.1指标

我们使用评分方法来评估 RAG 系统的性能。对于评估集中的每个问题，我们首先根据以下标准将答案标记为完美、可接受、缺失或不正确。

完美。该响应正确回答了用户的问题，并且不包含任何幻觉内容。

可以接受。该响应为用户的问题提供了有用的答案，但可能包含一些小错误，但不会损害答案的实用性。

失踪。响应是“我不知道”、“抱歉我找不到……”、系统错误（例如空响应）或系统要求澄清原始问题。

不正确。该响应提供了错误或不相关的信息来回答用户的问题。

然后，我们使用评分方法 Scoreh ，得分为 1、0.5、0 和 −1分别对应每个完美、可接受、缺失和不正确答案，其中我们惩罚幻觉答案并更喜欢缺失答案到不正确的0>。对于给定的 RAG 系统，我们计算评估集中所有示例的平均分数作为最终分数。

4.2评估

与之前的工作[26]类似，我们同时采用人工评估（ human-eval）和基于模型的自动评估（auto-eval）。在前者中，我们使用手动评分来判断每个答案的完美、可接受、缺失和不正确。在后者中，我们将完美和可接受合并，称之为准确，并使用三向评分Scorea 和 1,−1,0 表示准确、不正确和缺失答案。

我们设计了一种自动评估的两步方法：如果答案与真实情况完全匹配，则认为它是准确的；否则，它被认为是准确的。否则，我们使用大语言模型来确定响应是否准确、不正确或缺失。为了避免自我偏好问题[18]，我们使用两个大语言模型评估器：ChatGPT (gpt-3.5-turbo) [17] 和 Llama 3 (llama-3-70B-instruct) [2] 并报告平均值准确、幻觉、缺失每个 RAG 系统的两个模型的比率和分数。我们的离线实验表明，与人类评估相比，这种两步方法对于 ChatGPT 产生的平均 F1 分数为 94.7%，对于 Llama 3 产生的平均 F1 分数为 98.9%。更多详情请参见附录A.2.2。

测试数据分割。我们将数据按 30%、30% 和 40% 随机分为验证、公开测试和私人测试，并发布了 KDD 的验证和公开测试集杯赛挑战赛（附录A.2.3)。

5基准测试

在本节中，我们将介绍大语言模型和 RAG 系统在 CRAG 上的性能，证明 CRAG 具有合理的难度，有助于在开发 RAG 技术时获得见解和指明方向。

5.1简单的 RAG 解决方案

实验设置：我们首先在 CRAG 公共测试集上运行仅限 LLM 的解决方案，其中包含 1,335 个问题，使用简单的提示来鼓励简短的回答，并在信心十足时回答“我不知道”低（附录A.3.1)。我们使用了 Llama 2 Chat(llama-2-7b-chat 和 llama-2-70b-chat)[23]，Llama 3 Instruct (llama-3-8B-instruct 和 llama-3-70B-instruct)[2] 和 GPT-4 Turbo [1]。我们评估的纯 Web RAG 解决方案（任务 1）使用固定长度的 Web 上下文窗口（Llama 2 Chat 为 2K Token ，Llama 3 Instruct 和 GPT-4 Turbo 为 4K）；我们使用数据的原始顺序作为参考文本来连接网页片段，直到填满窗口（类似于[25,11,16])。我们基于 KG 的解决方案（任务 2、3）另外使用固定长度的 KG 上下文窗口（Llama 2 Chat 为 1K Token ，Llama 3 Instruct 和 GPT-4 Turbo 为 2K）来包含 Mock API 的结果；我们使用 llama-3-8B-instruct 和上下文学习（类似于 [20])提取相关查询实体，详见附录 A.3.1 并连接从所有适用的模拟 API 返回的结果（基于提取的实体），直到填满窗口。我们在本节中讨论 Llama 3 70B Instruct 和 GPT-4 Turbo 的结果，并在附录 A.3.2 中给出其他大语言模型的更多结果。

表 5：简单 RAG 解决方案的性能。所有数字均以百分比表示。仅 LLM 解决方案的准确度高达 34%，而简单的 RAG 解决方案的准确度高达 44%。

图2：仅 LLM 和任务 3 解决方案跨领域、动态、受欢迎程度和问题类型自动评估分数（以百分比表示）。

表5显示了两个自动评估器（ChatGPT 和 Llama 3）的平均评估分数，并说明 CRAG 基准并非平凡。首先，最好的纯LLM解决方案（GPT-4 Turbo）的准确率仅为34%，得分为20%，显示出很大的改进空间。其次，简单的 RAG 解决方案获得了高达 44% 的准确率，这表明额外的信息确实有助于可靠地回答更多问题。有趣的是，没有一个 RAG 解决方案获得高于 20% 的分数；这是因为所有的 RAG 解决方案都会引入更多由不相关的检索结果产生的幻觉，这表明 RAG 面临着巨大的挑战——如何明智地使用检索结果而不被检索噪音分散注意力？第三，我们发现任务2的分数高于任务1，这表明知识图谱知识有助于提高准确性，而幻觉率相似甚至更低，因为知识图谱知识通常简短而精确。不幸的是，改进效果平平，显示出 RAG 中的第二个挑战——如何最好地利用KG数据的力量？最后，任务 3 的分数也高于任务 2，因为它具有更好的搜索排名（回想一下，任务 1 和 2 提供了从前 10 个搜索结果中随机选择的 5 个页面）和更好的搜索召回率。这显示了 RAG 中搜索排名的重要性。

图2显示了跨领域、活力、流行度和问题类型维度的自动评估分数。结果揭示了许多有趣的观察结果，并表明 CRAG 基准可以得出更多有见地的结论。首先，它显示基准测试的哪些部分更难。例如，我们发现金融和体育领域的RAG分数要低得多，对于实时和快速变化事实，对于尾部实体，以及需要设定答案、后处理和错误前提的复杂问题。其次，它显示了哪些地方更难利用检索结果。以流行度切片为例，我们观察到 GPT-4 Turbo 的得分从头部（21%）到躯干（11%）再到尾部（8%）下降，与过去的观察结果一致[21]；然而，基于 GPT-4 Turbo 的简单 RAG 解决方案提高了躯干 (+7%) 和尾部实体 (+6%) 的 QA 质量，但降低了头部 (-4%) 的质量。最后，尽管我们的目标不是比较不同的大语言模型，但不同的维度可以让我们了解每种方法的优缺点。例如，虽然基于 Llama 3 70B Instruct 的 RAG 系统总体得分低于基于 GPT-4 Turbo 的系统，但在回答 simple 和时得分相似或略高。比较问题，而回答集合和后处理问题得分则低得多，这表明对推理能力进行了调查。

5.2最先进的行业解决方案

接下来，我们在 CRAG 公共测试集上评估了行业最先进的 (SOTA) RAG 解决方案。我们选择了四个基于SOTA大语言模型和搜索引擎构建的RAG系统，用CRAG问题对其进行查询，收集答案，并应用手动评分（详细信息参见附录A.4)。

此外，我们对问题应用了流量权重，以了解实际用例中的解决方案。流量权重来自真实的 QA 用例，生成方式如下。在每个域内，我们首先将问题聚类到子域中（例如，当前的游戏积分、运动队），然后从反映用户交互的聚合数据中得出子域权重。我们将子域权重应用于每个 CRAG 问题，以桥接结果以反映用户体验，并在表 6 中报告所有域的宏观平均分数（即为所有域赋予相同的权重）。

表 6：使用行业 SOTA RAG 系统对 CRAG 问题进行基准测试。完美，可以接受（Acc.）、幻觉（Hall.）、失踪（小姐） rates 和 Scoreh 均以百分比表示。最好的系统得分为 51%，并为高达 63% 的问题提供完美答案。

图3：SOTA 系统在不同维度上进行人类评估分数（百分比）。

表6和图3显示了SOTA系统的整体性能及其在不同维度上的性能。评估结果证实了我们的信念：CRAG 基准揭示了有趣的见解并展示了现有 RAG 解决方案的改进空间。首先，与简单的解决方案相比，SOTA 解决方案的得分要高得多（最高 51%)。然而，加权幻觉率范围为 17% 到 25%，因此答案仍然不可信。请注意，SOTA 解决方案和直接解决方案之间的分数不完全可比，因为它们对检索内容的访问不同（附录A.3和A.4.1)，前者使用auto-eval，后者使用 human-eval；然而，这种趋势是有效的。其次，我们在简单解决方案中看到的最困难的部分对于 SOTA 解决方案来说仍然很困难：实时和快速变化查询，以及有关躯干<的问题/t2> 和 tail 实体，显示当系统依靠检索结果回答问题时处理检索噪声所需的改进；再举个例子，我们发现需要多跳推理或后处理的查询得分较低，这表明问答推理的改进空间。第三，与第二个系统(73%和70%)相比，第三个SOTA系统的加权精度稍高（完美+可接受），但幻觉要高得多(25.1% 和 16.6%)，表明需要构建 RAG 系统，以便在找不到可靠答案时明智地回答“我不知道”。最后，与简单的解决方案相比，SOTA 解决方案中集合和错误前提问题的得分显着提高，这表明 RAG 系统在提供准确且完整的集合答案和检测错误的前提。

最后，我们观察到非常不同的延迟，范围从 2.5 秒到 11.6 秒，反映了在延迟和质量之间权衡的不同设计选项。请注意，延迟结果来自与 Perplexity.ai 的 API 和其他系统的 Web 界面的交互。请参阅附录 A.4.2 了解更多结果以及我们如何测量延迟。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述