【论文通读】Diagnosing and Remedying Knowledge Deficiencies in LLMs via LaMer

前言

一篇很有意思的工作,通过相对熵判断LLM在知识上的缺陷,从而合成新数据来修复模型的知识缺口。方法简单,效果不错,简洁易懂,虽然在应用场景上有很大的限制,但是也是给LLM的知识诊断与修复带来了新的思考方向。
Paperhttps://arxiv.org/pdf/2408.11431

Abstract

大模型从大量无标注数据中学习,展现广泛的用途。然而大模型仍会面临推理错误和知识缺失的问题,影响其可靠性。虽然多样的query可以改善该问题,但是获得充分有效反馈是困难的。此外,受限于有限的标签,难以全面评估LLM,因此通过丰富的无标签查询来诊断和修复LLM 的缺陷成为一项挑战。为此,本文提出一个无标签课程有意义学习框架LaMer,LaMer 首先首先采用相对熵来自动诊断量化无标签环境中LLM的知识缺陷。接下来,为了弥补诊断出的知识缺陷,我们应用课程有意义学习:首先,我们采用有意义学习根据缺陷的严重程度自适应地合成增强数据,然后设计课程缺陷补救策略来逐步弥补LLM的知识缺陷。实验表明,LaMer 高效诊断和弥补了LLM 的知识缺陷,改进了七个分布外 (OOD) 推理和语言理解基准的各种LLM,仅用 40% 的训练数据就取得了与基线相当的结果。 LaMer 甚至超越了依赖标记数据集进行缺陷诊断的方法。在应用中,作者的无标签方法可以为高效LLM应用提供有效的知识缺陷诊断工具。

Background

当前LLM有如下局限:

  1. 推理错误。
  2. 难以获得用户有效的反馈。

这对基于大量无标签数据训练的LLM造成巨大的阻碍。

Motivation

现有的解决方案主要采用两种方式:

  • 无监督语言建模
  • 监督微调

但是这两种方法都有局限性:

  • 效率低下,难以解决LLM的推理错误。
  • 对LLM缺乏全面了解,难以进行针对性的改进。
  • 为用户查询标注虽然可以缓解推理错误,但是成本高且数据不够。

作者考虑到上述的局限性,又发现LLM推理错误往往是因为缺乏相关知识,因此希望在无需任何标注的情况下,诊断LLM中知识的缺失并对其进行修复。这种方式可以帮助LLM持续更新迭代。

LaMer

因此,正如上图c中所示,作者提出了无标签课程有意义学习方法LaMer:

  1. 检索用户查询的知识(Knowledge Retrieval)。
  2. 利用相对熵(可以估计从一个分布变为另一个分布所需的额外信息)和检索的知识诊断LLMs知识的缺陷(Label-free Knowledge Deficiency Diagnosis)。
  3. 利用课程有意义学习,根据缺陷程度自适应合成各种场景数据,利用采集的数据修复缺陷(Curricular Meaningful Learning)。

Knowledge Retrieval

部署GenericsKB作为外部知识库,包含3.4M+自然事实。使用FlagEmbedding对事实进行表征,并对每个查询同样做表征计算余弦相似度,从而检索m条知识。检索出来的知识和原始的查询用于在第二步诊断LLM知识的缺失。

Label-free Knowledge Deficiency Diagnosis

为了诊断LLM在无标签场景知识的缺失,作者使用相对熵(KL散度)来量化从一个分布到另一个分布所需要的附加信息。因此通过计算LLM在引入知识之前和引入知识之后分布的相对熵,就可以估计知识传给LLM的信息量。如果相对熵很高,说明LLM缺乏相关知识,或者无法将其有效整合去解决问题,从而可以诊断出知识的缺失。

具体来说:

  1. 对于一个包含问题和n个选项的查询d,作者首先将d喂入大模型中获取每个选项的负对数似然,此后获得LLM在选项上的先验分布:

p i = L ( y i ∣ x , O ) p_i =\mathcal{L}\left(y_i \mid x, O\right) pi=L(yix,O)
P = Softmax ⁡ ( [ p 1 , ⋯   , p n ] ) P =\operatorname{Softmax}\left(\left[p_1, \cdots, p_n\right]\right) P=Softmax([p1,,pn])

  1. 对于每个检索到的知识k,同样喂入LLM中获取LLM在选项上的后验分布:

q i = L ( o i ∣ k , x , O ) q_i =\mathcal{L}\left(o_i \mid k, x, O\right) qi=L(oik,x,O)
Q = Softmax ⁡ ( [ q 1 , ⋯   , p n ] ) Q =\operatorname{Softmax}\left(\left[q_1, \cdots, p_n\right]\right) Q=Softmax([q1,,pn])

接着根据计算二者的相对熵来评估LLM在k上的知识缺陷:

$ \mathrm{RE}=-\sum_{i=0}^m P_i \times\left(\log \left(Q_i\right)-\log \left(P_i\right)\right) $

对于超出阈值的知识会被视作一个单元,代表LLM中知识的缺陷。RE值即是知识缺乏的量化。

当然这也会遇到两种情况:

  1. 检索的知识是有用的,可以帮助正确选项置信度更高。
  2. 检索知识是有误导性的,导致错误选项置信度更高。

作者认为这两种情况都是知识缺陷的表现,前者说明LLM没有掌握到相关知识或者不能很好应用,后者表明虽然模型理解了知识但是容易被误导。

Curricular Meaningful Learning

作者结合有意义学习和课程学习,设计有意义的课程,以有效弥LLM的知识缺陷。

  1. 根据知识缺陷的严重程度,利用ChatGPT为不同场景生成不同的example。
  2. 根据相应知识缺陷的严重程度进行排序,以课程学习的方式依次输入到模型中训练。

Experiments

作者在4个不同的基座模型,5种不同的方法,以及7个OOD的数据集上进行了实验。作者在Mistral、Qwen2、Gemma-1.1上合成了3750个样本,在LLama3.1上合成了1250个样本进行训练。

Base:base模型直接推理。

AugGPT:从GenericsKB随机检索3750个事实生成与LaMer相同数量训练示例。

Naive:同理AugGPT。

Single:每个缺陷检索一个示例,一共1500条。

结果分析如下:

  1. LaMer平均下来超过所有baseline的结果。
  2. 所有增强后的模型都超过base模型,而Single和Naive在 LLaMA-3 and Gemma-1.1上表现略差,因为补充的知识可能会让其忘记更多的知识。
  3. Single利用40%的数据就可以实现与Naive差不多的性能,效率高,成本低。
  4. LaMer在所有LLM上都优于Single,这说明严重的知识缺陷需要更多example来弥补。
  5. AugGPT在GSM-Plus上表现最差,因为数据问题需要多步推理。而在单步推理的任务上表现好。
  6. Qwen2优于LLaMA-3,可能是因为后训练工作完备。

Case Study

上图例子可以说明通过知识诊断和缺陷修复,LLM可以生成正确的答案。

Further Analysis

Comparisons to Label-reliant Methods

作者基于Mistral和e-CARE进行分析,以揭示不同方法在诊断缺陷方面的效率。结果如上表所示,无标签的RE方法通过获取更多LLM知识缺陷信息而显著优于困惑度方法。此外还采用依赖标签的LLM2LLM方法进行比较。

结果表明,LAMer在不同的模型上都优于LLM2LLM,这是因为LLM2LLM特定于错误的数据,而LAMer学习的是缺陷的知识。

Effectiveness in Remedying Decificiencies

作者对每种方法增强后正确的示例进行了统计,来检验LaMer是否可以有效更正错误示例。结果如上面雷达图所示:

  1. LaMer通过相对熵可以诊断更多缺陷,并通过课程有意义学习来弥补。
  2. 表2中虽然AugGPT在某些基准上超过LaMer,但是上图并没有,说明它在弥补LLM知识缺陷上还有不足。

Effect of Curricular Deficiency Remedy

为了探索课程学习的优势,作者随机打乱LaMer的数据,方法称之为LaMer*,结果如下所示:

  1. LaMer在每个LLM上都要优于LaMer*。
  2. 但是LaMer*性能下降比较小。
  3. 部分基准上LaMer*要优于LaMer,说明LaMer的核心优势还在于基于相对熵的诊断。

Causes for the Advantages of LaMer

为了探索LaMer优势的潜在原因,作者将基线和LaMer合成的数据可视化到2D空间,使用DBSCAN发现簇并去噪。可视化结果如下:

可以看到LaMer合成的数据的分布包围了其他方法的分布,说明因为 LaMer 可以利用相对熵来有效地发现更多缺陷。

Sign

之前提到知识缺陷可能由两种知识引起:

  1. 有用的知识让结果更好。
  2. 误导的知识让LLM选错。

作者为了探究这二者的重要性,分别使用基于有用和误导的合成数据来训练模型。结果如下图所示:

  1. 有用和误导性的知识造成的缺陷都是需要弥补的。
  2. 误导性知识重要性更大,这是因为误导性知识往往更复杂。
  3. 知识缺陷越大,二者的重要性越明显。

Conclusion

文章还是很有意思的,以相对熵的来量化LLM在知识上的缺陷,方法简单便捷且新颖。课程有意义学习更像是一个噱头,在这个场景下意义不大,比如模型在有的方面知识缺陷大,但不代表就是难的任务,只是模型之前没有学过罢了。此外我认为这个工作有一个严重的局限性在于场景上,该方法只能依赖于具有选项的问答任务,更多适合benchmark的刷榜,而不适合真实的应用场景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HERODING77

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值