【AI论文精读6】SELF-RAG（23.10）附录

AI完全体

已于 2024-10-21 15:45:09 修改

阅读量1.3k

点赞数 12

分类专栏： AI论文解读文章标签：人工智能机器学习深度学习自然语言处理 RAG 自适应检索论文笔记

于 2024-10-19 20:45:55 首次发布

本文链接：https://blog.csdn.net/weixin_43221845/article/details/143062311

版权

AI论文解读专栏收录该内容

22 篇文章

订阅专栏

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】

P1，P2，P3

附录

A SELF-RAG 细节

A.1 反思标记（reflection tokens）

反思标记的定义

下面我们提供了反思标记类型和输出标记的详细定义。前三个方面将在每个片段（segment） 级别提供，而最后一个方面仅在每个输出级别提供。

按需检索（Retrieve）：给定一个输入和前一步生成（如果适用），语言模型（LM）判断后续生成是否需要事实基础。No 表示不需要检索，因为序列不需要事实基础，或者无法通过知识检索来增强，Yes 表示需要检索。我们还增加了 continue to use evidence，表明模型可以继续使用之前检索到的证据。例如，一个段落（passage） 可能包含丰富的事实信息，SELF-RAG 会基于该段落生成多个片段。
相关性（IsRel）：检索到的知识可能并不总是与输入相关。此标记指示证据是否提供了有用的信息（Relevant）或无关信息（Irrelevant）。
支持性（IsSup）：归因的概念是指输出是否完全得到了特定证据的支持（Menick et al., 2022; Bohnet et al., 2022）。此标记判断输出中的信息在多大程度上得到了证据的支持。我们将归因评估分为三种等级：完全支持、部分支持 和 无支持/相反，参考 Yue et al. (2023); Nakano et al. (2021)。
有用性（IsUse）：按照 Liu et al. (2023a) 的定义，我们将感知效用定义为回答是否对查询有帮助且信息丰富，独立于其是否事实正确。此标记也可以被视为可行性（Menick et al., 2022）。对于有用性，我们使用五分制评估（1 为最低，5 为最高）。

基于 GPT-4 的数据收集细节

我们使用第 D 节中列出的指令和示范对 GPT-4 进行提示。根据官方建议，我们用 “###” 分离指令和输出。我们将温度设置为 1（知识蒸馏的温度），将最大输出 token 设置为 200。我们丢弃了不符合预期类别名称或输出格式的实例。最终，我们收集了 1,2594 个 Retrieve 实例，11,181 个 IsSup 实例，19,317 个相关性实例，以及 3,831 个效用实例。

对 GPT-4 预测的手动分析

本文作者随机抽样每个方面的 20 个实例，并检查 GPT-4 的预测是否与他们对相同指令、示范和测试实例的评估一致。我们发现评估结果与 GPT-4 预测高度一致，尤其是在相关性（95%）、检索必要性（95%）和支持度（90%）方面。由于 1-2 分与 4-5 分的差异，有用性方面的同意率略低（80%）。

A.2 SELF-RAG 训练

训练概述

算法 2 提供了我们训练的高级概述。

种子数据集的完整列表

为了获取多样化的输入-输出对

我们从 Open-Instruct 数据集（Wang et al., 2023）中采样实例。特别是，我们使用了其中的 ShareGPT、GPT-4 Alpaca、Alpaca、OpenAssistant 和 FLAN 子集。
我们还从多个知识密集型数据集（包括 Natural Questions（Kwiatkowski et al., 2019）、Wizard of Wikipedia（Dinan et al., 2019）和来自 KILT 基准（Petroni et al., 2021）的 FEVER（Thorne et al., 2018））中采样实例，以及 ASQA（Stelmakh et al., 2022）和多个问答数据集，包括 ARC-Easy 和 OpenBookQA（Mihaylov et al., 2018）。

表 3 显示了训练实例的完整列表，总共使用了 145,619 个实例。

批判模型 $C$ 的表现

我们通过将 GPT-4 生成的反馈划分为训练集、开发集和测试集，来评估奖励预测的准确性。
奖励模型（即批判模型 $C$ ）的准确性如表 5 所示。正如您所见，我们微调后的奖励模型整体上与 GPT-4 预测的反馈高度匹配。
虽然我们的最终模型使用 Llama2-7B 作为基础语言模型，我们也在相同数据上训练并比较了 FLAN-3B（Wei et al., 2022）模型，以研究不同模型参数大小对最终奖励预测效果的影响。在大多数方面，我们的奖励模型的准确率超过了 80%，表明微调的专门语言模型在文本评估方面具有强大的能力。
虽然两个模型在 ISUSE 上的表现相对较低，这是因为两个模型通常在最高的两个评分（5 和 4）之间存在混淆，甚至人类标注者也可能对其有不同意见。

生成器模型 $M$ 数据创建的细节

这里，我们提供了详细的数据创建过程。算法 3 概括了该过程。

为了简化，我们将 $y_t$ 设为 $y$ 。一旦我们训练好了批判模型，我们首先在前述数据集的输入数据上运行它，以预测是否需要检索。
对于批判模型预测为 Retrieve = No 的实例，我们仅根据输入和输出预测 ISUSE。
对于批判模型预测为 Retrieve = Yes 的实例，
- 我们首先使用输入和整个输出作为查询，检索相关段落，以找到与整个输出相关的段落。
- 然后我们使用 Spacy 工具将输出句子拆分。
- 对于每个句子，我们运行批判模型 $C$ 来预测在给定输入、前序片段和最初检索到的段落的情况下，是否需要检索。
- 如果 $C$ 预测 Retrieve = No，则在第 $t$ 个片段处不插入任何段落。
- 如果 $C$ 预测 Retrieve = Yes，则我们使用原始输入和第 $t$ 个片段作为检索查询，以找到与第 $t$ 个片段相关的段落。
- 对于每个检索到的段落，我们预测 ISREL 和 ISSUP。
- 如果有任何段落和延续满足 ISREL = Relevant 且 ISSUP = Fully Supported 或 ISSUP = Partially Supported 的条件，则我们将其作为延续进行采样。
- 如果有多个段落满足该标准，我们选择检索分数最高的段落。
- 如果只有 ISREL = Irrelevant 或 ISSUP = No Support 的段落，我们会随机采样一个段落。

训练示例

表 4 展示了用于 $M$ 模型训练的几个训练示例。

算法2的解读

在这里插入图片描述

算法 2 主要描述了 SELF-RAG 的训练过程，分为两个阶段：批判模型 $C$ 的训练和生成器模型 $M$ 的训练。以下是对算法 2 关键步骤的解释：

1. 初始化输入数据和模型

步骤 1：输入数据 $D = \{X, Y\}$ ，包含输入 $X$ 和输出 $Y$ 的配对，同时引入生成器模型 $M$ 、批判模型 $C$ 和优化器 $\theta$ 。
步骤 2：使用预训练语言模型来初始化批判模型 $C$ 。这意味着批判模型在微调之前，已经拥有一定的语言理解和生成能力。

2. 训练批判模型 $C$

步骤 3：从数据集中采样一组输入-输出配对 $\{X_{\text{sample}}, Y_{\text{sample}}\}$ ，这保证训练的数据多样性。
步骤 4-6：对于每对输入 $(x, y)$ ，提示 GPT-4 生成相应的反思标记 $r$ （例如，是否需要检索、段落是否相关等），然后将生成的 $(x, y, r)$ 添加到批判模型的数据集中 $D_{\text{critic}}$ 。
步骤 7：根据收集到的数据，使用下一个标记预测损失来更新批判模型 $C$ ，通过最大化生成的反思标记的对数似然来优化模型。

3. 训练生成器模型 $M$

步骤 8：使用预训练语言模型来初始化生成器模型 $M$ 。
步骤 9-11：对于输入数据中的每一对 $(x, y)$ ，运行批判模型 $C$ 来预测反思标记 $r$ ，并将生成的 $(x, y, r)$ 添加到生成器模型的数据集中 $D_{\text{gen}}$ 。此过程为生成器模型提供了丰富的监督数据。
步骤 12：使用生成器模型 $M$ 上的下一个标记预测损失来进行优化。通过最大化生成器模型生成的文本和反思标记的对数似然来更新模型。

表3

生成器 $M$ 的训练数据统计。

图5

使用 GPT-4 的预测作为真实值的批判模型（奖励模型）的预测准确率。

算法3

生成器训练数据的创建过程

在这里插入图片描述

A.3 SELF-RAG 推理

束搜索评分计算的细节

我们首先通过计算期望标记的归一化概率，来为每种批判类型计算评分。

对于 IsRel，评分的计算公式如下：
$s(\text{IsRel}) = \frac{p(\text{IsRel} = \text{Relevant})}{p(\text{IsRel} = \text{Relevant}) + p(\text{IsRel} = \text{Irrelevant})}$
对于 IsSup，评分的计算公式如下：
$s(\text{IsSup}) = \frac{p(\text{IsSup} = \text{Fully}) + 0.5 \times p(\text{IsSup} = \text{Partially})}{S}$
其中， $\sum_{t \in \{\text{Fully, Partially, No}\}} p(\text{IsSup} = t)$ 。
对于 IsUse，我们有一个五级评分系统。我们将权重分配给 IsUse 标记的五个可能值，权重 $w = \{-1, -0.5, 0, 0.5, 1\}$ ，评分的计算公式如下：
$s(\text{IsUse}) = \sum_i w_i \frac{p(\text{IsUse} = i)}{S}$
其中， $\sum_{t \in \{1, 2, 3, 4, 5\}} p(\text{IsUse} = t)$ 。

自适应检索的细节

对于基于软约束的检索，当满足以下条件时触发检索：
$\frac{p(\text{Retrieve} = \text{Yes})}{p(\text{Retrieve} = \text{Yes}) + p(\text{Retrieve} = \text{No})} > \delta$

B 实验细节

B.1 训练的更多细节

更多训练和计算的细节

我们使用 4 块 Nvidia A100（80GB 内存）来训练模型。
所有模型均训练 3 轮，批大小为 128，峰值学习率为 $\times 10^{-5}$ ，预热步数为 3%，之后进行线性衰减。
由于内存限制，我们将 7B 模型的最大 token 长度设置为 2,048，将 13B 模型的最大 token 长度设置为 1,524。
我们使用 Deepspeed 第三阶段（Rajbhandari et al., 2020）进行多 GPU 分布式训练，启用了 Bfloat16 精度。
为了提高长上下文训练的效率，使用了 FlashAttention（Dao et al., 2022）。
我们在推理时使用 1-2 块 Quadro RTX 6000 GPU（24GB 内存）来运行训练好的模型。

B.2 评估的更多细节

检索设置的细节

默认情况下，我们使用 Contriever-MS MARCO 从维基百科中检索前五个文档，并使用基于 2018 年维基百科的官方嵌入。
对于 PopQA，问题和答案对基于 WikiData 的 2022 数据创建，但我们发现 2018 年维基百科有时缺少一些较新实体的条目，因此我们使用了 Izacard et al. (2022b) 提供的 2020 年 12 月预处理后的维基百科语料库，并生成了文档嵌入。
之前的研究报告了不同维基百科数据集之间性能差异的问题（Asai et al., 2020; Izacard et al., 2022b）。然而，我们发现，针对开放域生成任务（如指令遵循任务），这些离线检索模型（主要训练在知识密集型任务上）的有效性有限。
最近的工作（Asai et al., 2023b）研究了检索系统的指令微调，或者检索与语言模型的联合训练（Lin et al., 2023）。
对于传记生成任务和开放域问答任务，我们还检索了来自英文维基百科的 5 个文档，这些文档使用 Google 可编程搜索找到。由于该 API 仅提供片段，我们检索了相关实体的维基百科介绍段落。

针对各个数据集的详细实验设置

对于 OpenQA 数据集，我们将最大 token 数限制为 100。
对于封闭集任务（PubHealth 和 ARC-C），我们将最大 token 数限制为 50。
对于 SELF-RAG 在 PubHealth 和 ARC-C 上的推理，我们通过汇总每个选项的分数来确定最佳选项，而不是选择分数最高的单个选项。
我们发现，在零样本事实检查任务中，一些语言模型可能生成大写类别标签（例如 True），而 gold 标签则是小写的。因此，在事实检查任务中，我们将模型生成的标签转换为小写。
对于多项选择任务，我们发现某些模型生成的答案与 gold label 存在轻微格式差异（例如，生成 (A) 而不是 A ）。我们对每个 LLM 的输出进行轻微的格式修改，进一步执行严格的字符串匹配，确保候选答案与模型预测匹配，尽管少量的格式问题仍然存在。处理之后，在封闭集任务中，模型预测几乎在所有情况下都与 gold 类别匹配。
对于 ALCE，我们发现 Llama2-chat 生成的输出明显比其他模型更长（例如，平均输出接近 100 个 token，而 ChatGPT 的平均输出为 40 个 token），导致 str-em 分数虚高。为避免这一问题，我们将所有基线模型的最大生成长度限制为 100 个 token，而不是 ALCE 论文中原来的 300 个 token。因此，所有基线模型的输出长度都在 30-60 个 token 之间。对于 FactScore，我们将基线模型的每个片段最大新 token 长度设置为 500，而 SELF-RAG 则设置为 200。

任务特定指令

表 5 列出了评估过程中使用的指令。对于开放域问答任务，我们不提供显式指令示例。

C 结果

C.1 分析

依赖参数化和非参数化记忆。

我们对模型的答案来源于检索到的段落（非参数化记忆）或其自身的参数化记忆的频率进行了分析。

做法：在两个开放领域的问答数据集 TriviaQA 和 PopQA 上，我们进行了以下分析：1）采样出模型成功正确回答的查询，2）对于该组中的每个查询，检查匹配的真实答案是否为检索到的段落的子串。我们评估了 SELF-RAG 7B、Alpaca 7B、Alpaca 13B 和 Llama2-Chat-13B。
结果：我们发现 SELF-RAG 很少生成未包含在提供证据中的答案；特别是在 Alpaca 30B 中，20% 的正确预测未包含在提供的段落中，其次是 Llama2-chat 13B（18%）和 Alpaca（15%），而在 SELF-RAG 中这一比例仅为 2%。当检索到的段落不相关时，SELF-RAG 会生成 ISREL = Irrelevant，表明接下来的答案可能没有事实依据，而这些指令调优的模型则继续生成看似合理的答案。

C.2 人类评估示例

表 6 显示了带有 S&P（支持性与合理性）和 ISREL 与 ISSUP 反思标记正确性的人类评估示例。

C.3 质量评估示例

表 7 展示了几个由我们的 SELF-RAG（13B）预测的示例。

第一个示例是模型对 ASQA 问题的输出。第一个引用指出康斯坦丁大帝将星期天设为休息日，第二个引用进一步支持了康斯坦丁在公元 321 年正式将星期天作为休息日的事实。
在第二个示例中，模型预测了与第一个输出相矛盾的结果，因为输出说这个人自 2010 年以来一直担任 CEO，而段落中则说他在 2015 年卸任 CEO。通过将这些事实矛盾标记为反思标记，可以轻松实现严格的控制并验证模型的输出。
在第三个示例中，尽管生成结果大体正确，但 SELF-RAG 对列出歌曲名称的语句预测为“部分支持”，因为它们并未明确提及。

D 全部指令和示范列表（用于 GPT-4）

在这里，我们展示了用于提示 GPT-4 收集反思标记的指令和示范。

表 8 展示了用于初始检索标记的指令和示范。
表 9 展示了用于根据给定的指令、前置句子和之前检索到的段落，收集三类输出标记的指令和示范。由于示范和测试输入较长，我们只使用了一个示范。
表 10 展示了用于收集 IsRel 三类输出标记的指令和示范。
表 11 展示了用于收集 IsRel 三类输出标记的指令和示范。
表 12 展示了用于收集 IsUse 五类输出标记的指令和示范。

表4

在这里插入图片描述

此表展示了多个训练示例

示例1

输入：识别两种类型的计算机内存。（来自 gpt4 alpaca）
输出：

检索：是
段落：计算机内存——在计算机中，内存指的是计算机硬件中的集成电路，它用于存储计算机即时使用的信息；它与“主存储器”一词同义。计算机内存以高速运作，例如随机存取存储器（RAM），区别于提供较慢访问但容量较大的存储设备。如果需要，计算机内存中的内容可以转移到二级存储；一种常见的方法是通过称为“虚拟内存”的内存管理技术。内存的古老同义词是“储存”。“内存”这个术语指的是“主存储器”或“主内存”。
相关性：[ISREL = 相关]
生成：主内存，也被称为主存储器，是计算机可以直接访问和操控的内存。
支持性：[ISSUP = 完全支持]
检索：是
段落：计算机内存——通常与可寻址的半导体内存相关，即由基于硅晶体管的集成电路组成，用作主存储器，还用于计算机和其他数字电子设备中的其他用途。半导体内存主要有两种类型：易失性和非易失性。非易失性内存的例子包括闪存（用作二级存储器）和 ROM、PROM、EPROM、EEPROM（用于存储固件，如 BIOS）。易失性内存的例子包括主存储器，通常是动态随机存取存储器（DRAM），以及快速的 CPU 缓存内存，通常是静态随机存取存储器（SRAM），它速度快但耗能高，提供较低的存储容量。
相关性：[ISREL = 相关]
生成：主内存可以快速访问，但它是易失性的，这意味着如果断电，数据将丢失。
支持性：[ISSUP = 部分支持]
效用：[ISUSE = 5]

示例2

输入：举一个你需要委派任务的情况（来自 gpt4 alpaca）

输出：

检索：否
生成：经理意识到，为了使活动取得成功，有一长串任务需要完成。
检索：是
段落：委派——委派是将任何责任或权力分配给他人（通常是从经理到下属）以执行特定的活动。它是管理领导的核心概念之一。然而，分派工作的人员仍然对所分派工作的结果负责。委派授权下属做出决策，即将决策权从一个组织层级转移到较低的层级。如果正确执行，委派并不是捏造。
相关性：[ISREL = 相关]
生成：这包括创建嘉宾名单、设计和发送邀请函、预定场地、与供应商协调、规划活动议程以及监控预算等任务。
支持性：[ISSUP = 部分支持]
检索：否
生成：由于经理无法独自处理所有事情，他们必须将任务委派给团队成员。
检索：否
生成：经理随后会根据每个团队成员的个人技能和优势分配具体的职责。
检索：是
段落：联合应用设计——专业领域专家：这些是业务用户、信息系统（IS）专业人员以及成功工作坊所需的外部专家。这个小组是会议的支柱。
相关性：[ISREL = 不相关]
生成：例如，团队的平面设计师可能负责设计邀请函，而活动协调员则负责规划议程并与供应商合作。
检索：否
生成：通过委派任务，经理可以确保所有必要的任务按时完成，同时也能赋予团队成员责任感并促使他们为活动的成功做出贡献。
效用：[ISUSE = 5]

示例3

输入：根据提示“夕阳西下”合成一首诗（来自 Stanford Alpaca）

输出：

检索：否
生成：星星开始在夜晚的树木间闪烁，散落在夜空中；
检索：否
生成：星星开始在夜晚的树木间闪烁，散落在夜空中；
检索：否
生成：它们像一支静谧的舞蹈，宁静的瞬间沉浸在恍惚中；
检索：否
生成：它们像一支静谧的舞蹈，宁静的瞬间沉浸在恍惚中；
检索：否
生成：蟋蟀的合唱唱起摇篮曲，献给在天空中游荡的每一只生灵；
效用：[ISUSE = 5]

示例4

输入：第七季《行尸走肉》是什么时候播出的？（来自 NQ）

输出：

检索：是
段落：第七季《行尸走肉》——《行尸走肉》第七季是一部美国后末日恐怖电视剧，于2016年10月23日在AMC频道首播，并于2017年4月2日结束，共包含16集。该系列由弗兰克·达拉邦特改编自罗伯特·柯克曼、托尼·摩尔和查理·阿德拉德的同名漫画书系列。
相关性：[ISREL = 相关]
生成：2016年10月23日
支持性：[ISSUP = 完全支持]
效用：[ISUSE = 5]

示例5

输入：给定一个用新行分隔的聊天记录，生成一个内容丰富、有知识性且引人入胜的回复：
“你好，我喜欢德国牧羊犬，你呢？”——“它是我最喜欢的狗，它们正式的名称是德国牧羊犬？”——“是的，我家有一只德国牧羊犬，她怀孕了。”（来自 wow）

输出：

生成：它们也很容易训练，服从性好，且很聪明。
检索：是
段落：德国牧羊犬——这是一个简单的观点差异，涉及到该犬种的基本结构和运动特征问题。它们以易于训练、适合执行任务和遵循指示而著称。德国牧羊犬尤其因其在警务工作中的出色表现而闻名，它们被用于追踪罪犯、巡逻问题区域以及侦查和扣押嫌疑人。
相关性：[ISREL = 相关]
生成：因此，它们经常被用于残疾人辅助和警务工作。
支持性：[ISSUP = 部分支持]
效用评分：[ISUSE = 2]

表5

在这里插入图片描述

零样本评估期间使用的完整指令列表

数据集	指令
ARC-C	给出四个候选答案，A、B、C 和 D，选择最佳答案。请仅使用大写字母回答，不要添加任何额外的短语或句号。
PubHealth	以下陈述是否正确？如果正确，请回答“true”；否则，请回答“false”。不要使用大写字母或添加句号，只需回答“true”或“false”。
Bio Generation	告诉我关于 [Person Name] 的简历信息。
ASQA (baseline)	指令：使用仅提供的搜索结果（其中一些可能不相关）为给定的问题撰写准确、吸引人且简洁的答案，并正确引用它们。使用公正且新闻化的语气。对于任何事实声明始终进行引用。引用多个搜索结果时，使用 [1][2][3]。每个句子至少引用一个文档，最多引用三个文档。如果多个文档支持该句子，则只引用最小足够子集。
ASQA (ours)	回答以下问题。问题可能是模棱两可的，并且可能有多个正确答案，在这种情况下，你需要提供一个包含所有正确答案的长篇答案。

备注：对于开放领域的问答，我们不使用任何特定任务的指令，而是仅使用原始问题作为输入查询。

表6

在这里插入图片描述

人类评估的几个示例

示例1

输入：A Question and Answer Guide to Astronomy 属于什么类型？（PopQA）

输出： [Retrieve =Yes] [ ISREL =Relevant] 《A Question and Answer Guide to Astronomy》是一本非小说类书籍，属于天文学和宇宙学领域。[ ISSUP =Fully Supported] [ ISUSE =5]

参考资料 [1]：《A Question and Answer Guide to Astronomy》是一本关于天文学和宇宙学的书，面向普通读者。该书由 Pierre-Yves Bely、Carol Christian 和 Jean-Rene Roy 撰写，并于2010年由剑桥大学出版社出版。原书为法语版，内容采用问答格式编写。书中包含约250个问题，每个问题都由简明且结构良好的文章进行解答，内容既有信息性，又通俗易懂。书中涵盖了行星、地球、宇宙、实际天文学等主题，还有关于《圣经》、不明飞行物和外星人的历史性问题。该书还讨论了宇宙大爆炸、大数字的理解、以及月球幻觉等科学话题。

S&P：支持且合理。

ISREL 和 ISSUP 的正确性： ISREL 和 ISSUP 都是正确的，因为参考资料[1] 提供了书籍类型的详细信息，模型输出完全有参考依据支持。

示例2

输入：《The Lie》的作者是谁？（PopQA）

输出： [Retrieve =Yes] [ ISREL =Relevant] 《The Lie》的作者是 Sam Harris。[ ISSUP =Fully Supported] [ ISUSE =5]

参考资料 [1]：谎言是2011年出版的长篇散文书，由美国作家兼神经科学专家 Sam Harris 撰写。Harris 认为，通过简单地在某些情况下说实话，我们可以彻底改变生活，改善社会，而其他人则经常撒谎。

S&P：合理但不支持。

ISREL 和 ISSUP 的正确性：ISREL 和 ISSUP 均不正确，因为参考资料[1] 是关于另一部名为《The Lie》的书，而不是目标书籍。

示例3

输入：告诉我关于 Ronaldinho 的简历（Bio）

输出： [Retrieve =Yes] [ ISREL =Relevant] Ronaldinho 是一名来自巴西的退役职业足球运动员。[ ISSUP =Fully Supported][ Retrieve =Continue]他担任进攻型中场，以其技术能力、创造力、盘带能力和任意球的精准度而闻名。[ ISUSE =5] 他曾两次获得 FIFA 年度最佳球员奖和金球奖。

参考资料 [1]：Ronaldinho，即 Ronaldo de Assis Moreira（1980年3月21日出生），是一位巴西退役职业足球运动员，主要担任进攻型中场，但也曾担任边锋。被认为是其时代最伟大的球员之一，并且被许多人视为史上最伟大的球员之一。Ronaldinho 曾两次获得 FIFA 年度最佳球员奖和金球奖。他以技术能力、创造力、盘带能力和任意球的精准度闻名，尤其擅长各种假动作、脚后跟传球和无看传球等。

S&P：合理且完全支持。

ISREL 和 ISSUP 的正确性：ISREL 和 ISSUP 都是正确的。

示例4

输入：告诉我关于 Sergei Bodrov 的简历（Bio）

输出： [Retrieve =Yes] [ ISREL =Relevant] Sergei Vladimirovich Bodrov（1948年6月28日出生）是一位俄罗斯电影导演、编剧和制片人。[ ISSUP =Fully Supported][ Retrieve =Continue]他出生于俄罗斯莫斯科。[ ISUSE =5] 他是俄罗斯电影制片人协会的主席。

参考资料 [1]：Sergei Vladimirovich Bodrov（1948年6月28日出生）是一位俄罗斯电影导演、编剧和制片人。2003年，他曾担任第25届莫斯科国际电影节评审团主席。

S&P：合理但仅部分支持。参考资料[1]并未明确提到他出生于莫斯科，也没有提到他是俄罗斯电影制片人协会的主席。

ISREL 和 ISSUP 的正确性：ISREL 和 ISSUP 都是正确的，因为参考文档高度相关且第一句话完全支持。

表7

在这里插入图片描述

示例1

输入：星期天是什么时候成为一周的第七天的？（来自 ASQA）

输出：

检索：是
段落：参考文献 [1]
相关性：[ISREL = 相关] 在公元 321 年，罗马皇帝君士坦丁大帝宣布星期天为休息日，声明：“在尊贵的太阳日，让在城市中居住的官员和人民休息，并关闭所有作坊。”
支持性：[ISSUP = 完全支持]
检索：是
段落：参考文献 [2]
相关性：[ISREL = 相关] 君士坦丁大帝在公元 321 年正式将星期天作为休息日，确立了星期天为一周的第七天。[2]
支持性：[ISSUP = 完全支持]
效用：[ISUSE = 5]

参考文献 [1]：君士坦丁皇帝在公元 321 年颁布了第一批星期天法令，称“尊贵的太阳日”为休息日。321 年 3 月 7 日，罗马皇帝君士坦丁发布了一项法令，将星期天设为休息日。我们可以在如《休息日》一书等来源中找到对此的详细描述，其中指出：早期基督教的第七天安息日和主日聚会的精神性双重观察证据可见于伊格那修斯大约于 110 年写给马格尼西亚人的信件中。

参考文献 [2]：尽管君士坦丁正式确立了星期天为休息日，七天周和九天周期仍至少在 354 年的日历中并行使用，甚至可能在更晚的时间继续并行使用。… 教令的颁布本身表明，君士坦丁 321 年的法令并未得到普遍采纳…

示例2

输入：告诉我关于 Rory Tapner 的简历。（传记生成）

输出：

段落：参考文献 [1]
相关性：[ISREL = 相关] Rory Tapner 是一位英国商人，自 2010 年以来一直担任 Coutts 私人银行和财富管理公司的首席执行官。
支持性：[ISSUP = 矛盾]
段落：参考文献 [2]
相关性：[ISREL = 相关] Rory Tapner 于 1959 年 9 月 30 日出生在英国伦敦。
支持性：[ISSUP = 完全支持]

参考文献 [1]：Rory Tapner 是一位英国商人，他于 2010 年 9 月被任命为皇家苏格兰银行集团的财富管理部门 Coutts 的首席执行官。在 2015 年 2 月，他卸任 CEO，由 Alison Rose 接任。

参考文献 [2]：Rory Tapner 于 1959 年 9 月 30 日出生，是一位英国商人，自 2016 年 8 月起担任职务，并自 2017 年 7 月起担任巴肯汉姆大学委员会成员。

示例3

输入：告诉我关于 G. Venugopal 的简历。（传记生成）

输出：

检索：是
段落：参考文献 [1]
相关性：[ISREL = 相关] G. Venugopal 是一位在马拉雅拉姆电影界非常受欢迎的电影播放歌手。
检索：继续
生成：他在马拉雅拉姆语、泰米尔语和印地语电影中演唱了超过 300 首歌曲。
支持性：[ISSUP = 部分支持]
检索：是
段落：参考文献 [2]
相关性：[ISREL = 相关] G. Venugopal 于 1960 年 12 月 10 日出生于印度。
支持性：[ISSUP = 完全支持]

参考文献 [1]：G. Venugopal（出生于 1960 年 12 月 10 日）是一位印度播放歌手，以其在马拉雅拉姆电影中的作品而闻名。他的歌唱生涯始于 1984 年的电影《Odaruthammaava Aalariyaam》。此后，他在超过 300 部电影中演唱，并拥有超过 500 张个人专辑。他获得的众多奖项包括三次获得最佳播放歌手（喀拉拉邦）的殊荣，影评人奖和两次喀拉拉 Kaumudi Gallop Poll 奖。他在 2004 年凭借电影《Ullam》中的歌曲《aadedee…aadaadedee》第三次获得喀拉拉邦最佳播放歌手奖。

参考文献 [2]：喀拉拉邦电影奖、喀拉拉电影评论奖、喀拉拉邦政府奖（专业戏剧）、Asianet 电影奖、喀拉拉 Kaumudi Gallup Poll 奖。G. Venugopal（出生于 1960 年 12 月 10 日）是一位印度播放歌手，以其在马拉雅拉姆电影中的作品而闻名。

表8

在这里插入图片描述

仅根据输入，用于“检索”方面的指令和示范。

指令

给定一个指令，请判断从网络（例如，维基百科）查找一些外部文档是否有助于生成更好的回应。请回答 [Yes] 或 [No]，并写下解释。

示范

指令：给出保持健康的三条建议。
是否需要检索？ [Yes]
解释：可能有一些在线资源列出保持健康的三条建议，或一些可靠的资源解释不同行为对健康的影响。因此，检索文档有助于改进对此查询的回应。
指令：描述你曾经做过的一个艰难决定。
是否需要检索？ [No]
解释：这个指令询问的是一些个人经验，因此不需要检索外部文档。
指令：写一个关于主角必须做出重要职业决定的第三人称短篇小说。
是否需要检索？ [No]
解释：这个指令要求我们写一个短篇小说，且不需要外部证据进行验证。
指令：法国的首都是哪里？
是否需要检索？ [Yes]
解释：虽然该指令只是让我们回答法国的首都（一个广为人知的事实），但检索网页文档对此问题仍然有帮助。
指令：给定圆的半径，求该圆的面积。半径 = 4
是否需要检索？ [No]
解释：这是一个数学问题，虽然我们可能找到一些描述公式的文档，但很难找到准确提到该答案的文档。
指令：将给定句子中的单词排列成语法正确的句子。句子为：“quickly the brown fox jumped”
是否需要检索？ [No]
解释：此任务不需要任何外部证据，因为这是一个简单的语法问题。
指令：解释植物细胞呼吸的过程。
是否需要检索？ [Yes]
解释：这个指令要求详细描述一个科学概念，并且很可能我们可以找到可靠且有用的文档来支持该回应。

表9

在这里插入图片描述

根据输入、前置生成和检索段落，展示了用于“检索”方面的指令和示范。

指令

你将获得一个指令、证据（之前检索到的段落提供的）、输出句子以及前置句子（可选）。如果给出了前置句子，输出句子应当是紧接这些前置句子之后的句子。你的任务是判断输出句子中的信息是否可以通过证据完全验证，还是需要进一步的外部验证。
这里有三种情况：

如果输出句子可以仅通过证据进行验证，则回答 [Continue to Use Evidence]。
如果句子不需要任何事实性验证（例如，主观句子或关于常识的句子），则回答 [No Retrieval]。
如果需要额外的信息来验证输出句子，则回答 [Retrieval]。
请为你的判断提供解释。

示范

指令：解释词嵌入在自然语言处理中的应用。
前置句子：词嵌入是自然语言处理（NLP）中最强大的工具之一。它们是单词或短语在向量空间中的数学表示，允许衡量单词之间的相似性以及它们所在上下文的相似性。
证据：词嵌入
词嵌入是自然语言处理（NLP）中一种语言建模和特征学习技术的统称，其中词汇中的单词或短语被映射到实数向量。概念上，它涉及从每个单词一个维度的空间嵌入到具有较低维度的连续向量空间。输出：词嵌入对于情感分析、文本分类、预测序列中的下一个单词以及理解同义词和类比非常有用。
评级：[Retrieval]
解释：输出讨论了词嵌入的应用，而证据仅讨论了词嵌入的定义及其工作原理。因此，我们需要检索其他证据来验证输出是否正确。

表10

在这里插入图片描述

仅根据输入，展示了用于 IsRel 方面的指令和示范。

指令

你将获得一个指令、证据以及可能一些前置句子。如果有前置句子，你的重点应该放在它们之后的句子上。你的任务是判断证据是否与最初的指令及前置上下文相关，并提供有用的信息来完成指令中描述的任务。如果证据满足这一要求，则回答 [Relevant]，否则生成 [Irrelevant]。

示范

指令：给出四个选项 A、B、C 和 D，选择最佳答案。
输入：地球自转的原因
A：昼夜的交替
B：火山爆发的形成
C：潮汐的周期变化
D：重力的形成
证据：自转导致昼夜交替，同时也产生了相应的温度和湿度循环，海平面随着地球自转一天两次升降。
评级：[Relevant]
解释：证据明确提到自转导致了昼夜交替，正如选项 A 中所描述的。
指令：参选美国众议院的年龄要求
证据：宪法规定了参选美国参议院的三个资格：年龄（至少 30 岁）；美国公民身份（至少 9 年）；以及在选举时参议员所代表的州的居住资格。
评级：[Irrelevant]
解释：证据仅讨论了参选美国参议院的年龄要求，而不是众议院的。

表11

在这里插入图片描述

展示了用于 IsSup 标记的指令和示范。

指令

你将收到一个指令、证据、输出句子以及可选的前置句子。如果提供了前置句子，输出句子应当是紧接这些前置句子之后的句子。你的任务是评估输出句子是否得到了提供的证据的充分支持。

使用以下蕴含尺度生成评分：

[Fully supported]：输出中的所有信息都得到了证据的支持，或者从证据中提取的信息支持了输出。这只适用于输出和部分证据几乎相同的情况。
[Partially supported]：输出在某种程度上得到了证据的支持，但输出中存在一些主要信息未在证据中讨论。例如，如果指令涉及两个概念而证据只讨论其中一个，则应视为 [Partially supported]。
[No support / Contradictory]：输出完全忽略了证据，与证据无关或与证据相矛盾。如果证据与指令无关，也可能发生这种情况。

确保不使用任何外部信息或知识来判断输出是否正确或不正确。只需检查输出是否得到了证据的支持，不要检查输出是否符合指令。

示范

指令：解释词嵌入在自然语言处理中的应用。
前置句子：词嵌入是自然语言处理（NLP）中最强大的工具之一。它们是单词或短语在向量空间中的数学表示，允许衡量单词之间的相似性以及它们所在上下文的相似性。
输出：词嵌入对于情感分析、文本分类、预测序列中的下一个单词以及理解同义词和类比非常有用。
证据：词嵌入
词嵌入是自然语言处理（NLP）中一种语言建模和特征学习技术的统称，其中词汇中的单词或短语被映射到实数向量。概念上，它涉及从每个单词一个维度的空间嵌入到具有较低维度的连续向量空间。生成此映射的方法包括神经网络、对单词共现矩阵的降维、概率模型、可解释的知识库方法以及根据单词出现的上下文进行的显式表示。词嵌入和短语嵌入在用作底层输入表示时，已被证明能够在 NLP 任务（如句法分析、情感分析、下一个单词预测以及类比检测）中提升性能。
评分： [Fully supported]
解释：输出句子讨论了词嵌入的应用，而证据提到了句法分析、情感分析、下一个单词预测以及类比检测作为应用。因此，评分应为 [Fully supported]。

表12

在这里插入图片描述

展示了用于 IsUse 标记的指令和示范。

指令

给定一个指令和输出，评估该回应是否对查询有帮助且信息丰富，并对其打分，评分范围为 1（最低）至 5（最高）。我们称此评分为感知效用。评分标准如下：

5：回应提供了一个完整、非常详细且信息丰富的回答，完全满足了信息需求。
4：回应基本满足了查询中的需求，虽然可以进行一些小的改进，例如讨论更多的详细信息、改善回应的结构或提高连贯性。
3：回应是可以接受的，但需要一些主要的补充或改进才能满足用户的需求。
2：回应仍然涉及主要请求，但不够完整或与查询不完全相关。
1：回应几乎没有涉及主题或完全无关。

示范

指令：截至 2023 年，现任英国首相是谁？
输出：鲍里斯·约翰逊是 2019 年至 2022 年的英国首相。
感知效用：2
解释：虽然输出提供了一个关于 2019 年至 2022 年英国首相的事实正确的陈述，但这个指令询问的是截至 2023 年的首相是谁，因此没有回答该指令。因此，效用评分为 2。
指令：给出一个旅行目的地的描述，推荐 10 个旅游景点，并详细描述每个景点。旅行目的地是日本东京。
输出：东京是一个充满刺激旅游景点的繁华城市。一些必看的景点包括东京晴空塔、东京迪士尼乐园、浅草寺、明治神宫、筑地市场、原宿和新宿御苑。
感知效用：3
解释：该输出并没有提供每个景点的详细描述，且景点数量也少于 10 个。虽然该输出部分回答了指令，但并未严格符合指令要求。