后处理：Calibration Method

人工智能小豪

已于 2024-01-25 20:49:04 修改

阅读量1.2k

点赞数 29

文章标签：人工智能算法数据挖掘大模型机器学习深度学习

于 2024-01-08 13:45:12 首次发布

本文链接：https://blog.csdn.net/2301_81888214/article/details/135421898

版权

本文探讨了大语言模型的校准方法，如RARR（研究-修订框架）、CRITIC（验证-修正）和PURR（高效编辑模型错误），重点关注模型生成回答后如何通过研究、验证和修正提高事实准确性。文章介绍了这些方案的流程、评估指标以及PURR对效率的优化，展示了如何通过数据驱动的方法提升模型的保留率和归因性。

摘要由CSDN通过智能技术生成

和Detection相反，Calibration把重心放在模型回答的后处理上。也就是先不做判断直接使用模型生成回答，再调用工具对回答进行校验和修改。这里我们介绍谷歌和微软提出的几种方案。不同方案对于如何后处理，和调用哪些工具进行后处理存在差异，不过整体流程都和下图相似：模型生成 -> 召回相关知识 -> 对生成结果进行校验和修复

指令方案

RARR: Researching and Revising What Language Models Say, Using Language Models

CRITIC: LARGE LANGUAGE MODELS CAN SELFCORRECT WITH TOOL-INTERACTIVE CRITIQUING

基础方案是RARR提出的Research-then-revise框架，整个流程分为以下几个步骤

Generation Stage，先让LLM直接生成问题回答X

Research Stage，用于收集可以校验回答的事实性证据。针对X使用Few-shot-prompt, 生成用来校验X的多个搜索问题，每个问题分别进行谷歌搜索并召回Top5内容。这里论文没有使用搜索自带的snippet，而是对网页内容进行分块（每4个句子一块），并使用T5-Encoder计算每个chunk和query的相似度保留top-J个内容块。这里会得到一个(Q1,chunk1)(Q1,chunk2),(Q2,chunk1),.....的（问题，事实）列表

Revise Stage，获取所有检索到的事实之后，进入校验阶段。论文会遍历以上列表，针对每一个问题，分别先使用few-shot-cot判断每个事实和模型回答X之间是否是一致的（agreement model如下）。如果一致则遍历下一个，如果不一致则使用few-shot-prompt让大模型基于事实+问题对模型回答进行修改（revision model如下）。论文在修改回答时，会先定位原始回答X中哪个span和事实不符再进行修改，从而避免大幅修改原始回答

评估部分，后处理方案需要兼顾对模型原始回答的保留和事实性，这里RARR提出了两个指标：

Attribution Score计算归因得分，既给定所有事实，修改后回答Y中每个句子和所有事实的最大NLI打分的平均值，既整体回答能获得事实性支撑的平均概率
Preservation score计算保留率，由回答原始意图的保留概率 * 前后答案的未改变率（编辑距离度量）得到

RARR最大的问题在于效率，一部分是大模型的推理效率，一方面是最后的Revise部分采用了串行修改，这部分在后面的微调方案中会有改良

另一篇论文CRITIC提出的verify-then-correct和RARR非常相似，只不过在不同的任务上尝试使用了不同的外部工具进行校验。在开放问答上使用搜索，在代码问题就用代码解释器，并未涉及动态的工具选择，只是在不同数据集上固定选用不同的工具，这里就不展开说啦，感兴趣的盆友自己去看论文吧~

微调方案

PURR: Efficiently Editing Language Model Hallucinations by Denoising Language Model Corruptions

Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback

Fusion-in-decoder: Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering

PURR针对RARR的效率问题进行了优化，使用的是大模型能力通过数据蒸馏到小模型的方案，也就是把上面最耗时的Revise部分使用T5-large模型来实现，query生成的部分也用T5-large来实现，并且把串行修改的方案优化为了所有事实进行一次性融合修改。

论文的核心就在于如何使用大模型来构建用于事实性修改的T5模型。论文使用了corrput的方案，也就是把正确的回答，人为进行破坏构造幻觉，再训练模型进行还原，具体包含以下几个步骤

生成正确的回答：整理了来自各个领域和话题的6000个种子问题，每个问题调用搜索引擎获取TopN网页，并进行chunking分段，使用和上面RARR相同的T5-Encoder计算每个段落和Q的相似度，阈值以上的为positive evidence(E++)这里限制最多4条，其余阈值以下的为negative evidence（E−−）。然后使用zero-shot-prompt来让大模型基于E++生成多文档总结，作为正确的回答Y。
对回答添加噪声：同样使用大模型基于2shot-cot-prompt，来对以上获得的正确答案进行破坏，指令要求大模型先生成修改方案，再对回答进行魔改。魔改包括但不限于魔改实体，魔改语义关系，魔改语法等等，这里论文使用了text-davinci-003，指令和效果如下图

训练T5：微调使用E+�+的事实和添加噪声的回答作为输入，模型目标是把噪声回答修复成正确答案。这里如果E+�+不足4条的会随机采样E−�−这样可以提高模型对噪声事实的识别能力。值得说一下的是这里多个事实并非采用拼接的形式进行融合，而是使用Fusion-in-decoder的形式在encoder层编码后进行拼接，再进入Decoder。

效果上PURR对比RARR，对模型原始回答有更高的保有率（Pres），以及更高的平均归因率（Attr）。

在线教程

麻省理工学院人工智能视频教程 – 麻省理工人工智能课程
人工智能入门 – 人工智能基础学习。Peter Norvig举办的课程
EdX 人工智能 – 此课程讲授人工智能计算机系统设计的基本概念和技术。
人工智能中的计划 – 计划是人工智能系统的基础部分之一。在这个课程中，你将会学习到让机器人执行一系列动作所需要的基本算法。
机器人人工智能 – 这个课程将会教授你实现人工智能的基本方法，包括：概率推算，计划和搜索，本地化，跟踪和控制，全部都是围绕有关机器人设计。
机器学习 – 有指导和无指导情况下的基本机器学习算法
机器学习中的神经网络 – 智能神经网络上的算法和实践经验
斯坦福统计学习

有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

请添加图片描述

人工智能书籍

第一阶段：零基础入门（3-6个月）

新手应首先通过少而精的学习，看到全景图，建立大局观。 通过完成小实验，建立信心，才能避免“从入门到放弃”的尴尬。因此，第一阶段只推荐4本最必要的书（而且这些书到了第二、三阶段也能继续用），入门以后，在后续学习中再“哪里不会补哪里”即可。

第二阶段：基础进阶（3-6个月）

熟读《机器学习算法的数学解析与Python实现》并动手实践后，你已经对机器学习有了基本的了解，不再是小白了。这时可以开始触类旁通，学习热门技术，加强实践水平。在深入学习的同时，也可以探索自己感兴趣的方向，为求职面试打好基础。

第三阶段：工作应用

这一阶段你已经不再需要引导，只需要一些推荐书目。如果你从入门时就确认了未来的工作方向，可以在第二阶段就提前阅读相关入门书籍（对应“商业落地五大方向”中的前两本），然后再“哪里不会补哪里”。

有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

人工智能小豪

关注

29
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
后处理：Calibration Method

另一篇论文CRITIC提出的verify-then-correct和RARR非常相似，只不过在不同的任务上尝试使用了不同的外部工具进行校验。在开放问答上使用搜索，在代码问题就用代码解释器，并未涉及动态的工具选择，只是在不同数据集上固定选用不同的工具，这里就不展开说啦，感兴趣的盆友自己去看论文吧~
复制链接

扫一扫