【荐读TPAMI】贝叶斯估计均值合适分数用于增强多样性主动学习

题目:[Bayesian Estimate of Mean Proper Scores for Diversity-Enhanced Active Learning (https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10360321)

贝叶斯估计均值合适分数用于增强多样性主动学习

作者:Wei Tan;Lan Du;Wray Buntine


摘要

主动学习的有效性在很大程度上取决于获取函数的采样效率。预期损失减少 (ELR) 关注于分类误差减少的贝叶斯估计,并且更广泛的成本也适用于相同的框架。我们提出了贝叶斯估计均值合适分数 (BEMPS),以估计在此框架内严格合适分数(例如对数概率或负均方误差)的增加。我们还证明了这类一般成本的收敛结果。为了更好地实验新的获取函数,我们开发了一种补充的批量主动学习 (AL) 算法,鼓励未标记数据得分变化向量的多样性。为了允许高性能分类器,我们结合了深度集成和预训练模型上的动态验证集构建,并通过蒙特卡洛 Dropout 来进一步加速集成过程。广泛的文本和图像实验表明,使用 BEMPS 的均方误差和对数概率可产生稳健的获取函数和良好校准的分类器,并且在测试中始终优于其他方法。通过一组定性分析进一步支持了 BEMPS 相对于其他方法的优势,其中我们使用数据图和 t-SNE 图可视化其采样行为。

关键词

  • 主动学习
  • 人工智能
  • 图像分类
  • 机器学习
  • 文本分类

I. 引言

分类在广泛使用,并且由于深度学习的出现,其性能大大提高。然而,其应用的一个重大障碍是缺乏标记或注释数据。领域专家执行的数据注释过程通常耗时、昂贵且繁琐,尤其是在医疗领域,由于需要专业知识和隐私问题。主动学习 (AL) 通过明智地选择最有信息的数据点进行注释,确保有效利用有限的注释预算,从而提供了解决方案。

创建适当的获取函数是 AL 的核心方面。在 AL 文献中,获取函数主要分为两大类:基于不确定性的方法和基于多样性的方法。前者旨在选择模型预测不确定性最高的样本。这种不确定性可以通过最不自信 (LC)、熵、互信息和其他方法来衡量。然而,基于不确定性的方法容易受到对抗性示例和噪声数据集的影响,通常会导致采样冗余甚至偏差实例,从而降低训练效率和模型性能。相反,基于多样性的方法努力获取最能捕捉整个未标记集合数据分布的样本。它们的成功在很大程度上取决于未标记数据在 k-Means 聚类中使用的表示。例如,ALPS 和 BERT-KM 从预训练语言模型生成的预测词概率计算意外嵌入。即使现有方法在不同任务中表现出良好的性能,我们认为单独考虑多样性而不考虑不确定性或反之亦然是次优的,特别是当估计的不确定性或计算的嵌入与模型性能无关时。

最近,一些批量 AL 方法通过混合方法关注不确定性-多样性权衡。一种显著的方法是 BADGE,它使用模型最后一层生成的梯度表示来结合预测不确定性和样本多样性。虽然 BADGE 可以在不调整模型超参数的情况下实现不确定性和多样性之间的平衡,但它面临在梯度空间中进行耗时的距离计算的挑战。然而,许多混合方法优先通过深度神经网络 (DNN) 的数据表示来多样化样本,往往忽略了预测不确定性。

在使用 DNN 进行 AL 系统建模时,尤其是在实际场景中,必须以整体方式考虑全面的因素。例如,应该考虑重新训练 DNN 的成本以及使用验证数据进行训练的成本。变压器语言模型的角色也很重要,理解批量模式 AL 的复杂性尤为重要,特别是强调多样性。此外,不应忽视所需的专业知识及相关的专业费用。设计实验时,必须考虑验证集的可行规模。在许多实际场景中,由于专家的成本限制,实践者可能会限制在 1000 个数据样本的专家注释预算内,这表明较大的验证集规模可能并不总是可行的。

鉴于这些要求,我们提出了一组基于严格合适评分规则的获取函数,并开发了一种考虑不确定性和多样性的混合方法,用于有效的批量主动学习使用 DNN。作为我们的第一步,数据获取成本减少的框架是样本信息的预期价值 (EVSI) 和类似的目标不确定性成本 (MOCU)。我们在这些框架内使用严格合适评分规则或 Bregman 发散性开发了我们的 AL 模型。应用于错误的 MOCU 需要修改公式,导致 WMOCU 和 SMOCU,以实现收敛并避免陷入错误带中。相比之下,严格合适的评分规则通过利用严格凸函数生成的预期分数避免了这个问题。评分函数的凸性保证了 AL 的收敛性。评分规则可以适应不同的推理任务(例如,不同的效用、精确度-召回权衡等)。这种属性对于例如医疗领域等应用是可取的和有益的,在这些领域,除错误以外的度量对于推理任务是相关的。

这项工作代表了我们之前在 NeurIPS 2021 会议论文 BEMPS 的实质性扩展,在那里我们开发了一系列基于严格合适评分规则的分类变量的新型获取函数,这些函数概括了基于 ELR 和 BALD 的现有函数。然后它用两个评分函数实例化,分别是 CoreMSE 和 CoreLog。此扩展的贡献总结如下:

  1. BEMPS 的理论特性:我们提供了详细的证明,证明了使用贝叶斯估计的均值严格合适分数的主动学习保证收敛。此外,我们证明了我们的获取函数测量的是认知不确定性,而不是随机不确定性。
  2. 全面的定量实验结果:除了 BEMPS 报告的结果外,我们还进一步验证了 BEMPS 在图像分类任务中的性能,使用了两个基准数据集,即 MINST 和 CIFAR10。此外,我们还进行了模型校准分析,通过预期校准误差来衡量。这也让我们探索了我们的方法和两种不同集成技术的计算特性,深度集成和蒙特卡洛 Dropout。
  3. 采样行为的定性分析:我们进一步采用可视化技术(即数据图和 t-SNE)来深入研究不同 AL 方法的采样行为,以了解驱动样本从不同区域(即易学、模棱两可和难学区域)和样本空间内决策边界沿线获取的潜在机制。

III. 贝叶斯估计均值合适分数

我们首先回顾获取函数的一般贝叶斯模型,包括 ELR、MOCU 和 BALD;并提供了合适评分规则的预备知识。然后我们开发 BEMPS,一个基于严格合适评分规则的新不确定性量化框架,具有理论基础。

A. 预期损失减少

ELR 方法试图量化当一个新样本添加到标记数据集中时预期减少的泛化误差。MOCU 类似于更广泛的评分系统类别,称为信息价值。与我们最相关的概念是样本信息的预期价值 (EVSI)。该概念探讨了获取单个样本点后成本度量如何预期改善。我们的独特贡献在于采用合适评分规则作为 EVSI 框架内指定的成本度量。

假设我们感兴趣的模型由参数 θ ∈ Θ \theta \in \Theta θΘ 参数化,L 表示标记数据,数据 x 的标签 y 的概率由 p ( y ∣ θ , x ) p(y|\theta,x) p(yθ,x) 给出,而 p ( ⋅ ∣ θ , x ) p(\cdot|\theta,x) p(θ,x) 表示标签概率向量。对于完全条件模型, θ \theta θ 的后验概率不受未标记数据影响,这意味着 p ( θ ∣ L , U ) = p ( θ ∣ L ) p(\theta|L,U) = p(\theta|L) p(θL,U)=p(θL) 对于任何未标记数据 U。此外,我们假设无损失的一般性,该模型家族在统计意义上是良好行为的,因此模型是可识别的。后验概率 p ( θ ∣ L ) p(\theta|L) p(θL) 的“成本”可以通过某个泛函 Q ( p ( θ ∣ L ) ) Q(p(\theta|L)) Q(p(θL)) 来衡量,简写为 Q ( L ) Q(L) Q(L),其中 Q ( L ) ≥ 0 Q(L) \geq 0 Q(L)0 Q ( L ) = 0 Q(L) = 0 Q(L)=0 当某个收敛目标已实现时。对于我们的模型,当 p ( θ ∣ L ) p(\theta|L) p(θL) 已收敛到单一模型的点质量时,这是合适的。一个合适的目标函数是衡量由于获取数据点 x 的标签导致的 Q ( ⋅ ) Q(\cdot) Q() 的预期减少。相应的 AL 获取函数的公式为

Δ Q ( x ∣ L ) = Q ( L ) − E p ( y ∣ L , x ) [ Q ( L ∪ { ( x , y ) } ) ] \Delta Q(x|L) = Q(L)- E_{p(y|L,x)} [Q(L \cup \{(x, y)\})] ΔQ(xL)=Q(L)Ep(yL,x)[Q(L{(x,y)})]

对于 ELR,表达式在不等号上分开。它估计获取新数据点 x 时预期减少的成本。由于事先未知新数据 x 的真实标签,我们必须使用模型的预期后验比例 p ( y ∣ L , x ) p(y|L,x) p(yL,x) 来估计可能的标签。对于使用 Shannon 熵的 BALD , Q I ( L ) = I ( p ( θ ∣ L ) ) Q_I(L) = I(p(\theta|L)) QI(L)=I(p(θL)),它测量参数空间中的不确定性,因此与实际错误没有强关系。MOCU 相当于 ELR 使用贝叶斯遗憾给出最优贝叶斯分类器和最优分类器之间的预期损失差异:

Q M O C U ( L ) = E p ( x ) [ min ⁡ y ( 1 − p ( y ∣ L , x ) ) − E p ( θ ∣ L ) [ min ⁡ y ( 1 − p ( y ∣ θ , x ) ) ] ] Q_{MOCU} (L) = E_{p(x)} \left[ \min_{y} (1- p(y|L,x))- E_{p(\theta|L)} \left[ \min_{y} (1- p(y|\theta,x)) \right] \right] QMOCU(L)=Ep(x)[ymin(1p(yL,x))Ep(θL)[ymin(1p(yθ,x))]]

WMOCU 使用 (11) 定义的加权函数,以获得比 MOCU 方法更便于定义 Δ Q ( x ∣ L ) \Delta Q(x|L) ΔQ(xL)。虽然 WMOCU 保证 Δ Q ( x ∣ L ) \Delta Q(x|L) ΔQ(xL) 根据 (15) 的严格凹函数的 Q ( L ) Q(L) Q(L) 收敛到最优分类器(在最小误差下),但通过手动控制加权函数的超参数只能解决收敛的最佳近似。为了允许更一般损失函数的收敛理论保证,我们提出了一种基于严格合适评分规则的不同定义 Q ( L ) Q(L) Q(L)

B. 合适评分规则

合适评分规则评估概率预测的质量,并提供预测不确定性的度量。它们根据预测分布和预测结果分配数值分数,偏好更准确和校准的预测而不是不准确的预测。我们专注于分数更高表示性能更好的评分函数。在本文中,我们对分类变量的概率预测质量感兴趣,其中合适评分规则通常用于训练分类算法。对合适评分规则更详细讨论感兴趣的读者可以参考其他工作。

让我们考虑分类变量 y 的预测,样本空间为 Ω = { 0 , . . . , K − 1 } \Omega = \{0, . . ., K - 1\} Ω={0,...,K1}。在这种情况下,评分函数 S ( p ( ⋅ ∣ θ , x ) , y ) S(p(\cdot|\theta,x), y) S(p(θ,x),y) 评估相对于观察事件 y ∣ x ∼ q ( y ∣ x ) y|x \sim q(y|x) yxq(yx) 的预测分布 p ( ⋅ ∣ θ , x ) p(\cdot|\theta,x) p(θ,x) 的质量,其中 q ( ⋅ ) q(\cdot) q() 表示 ( y , x ) (y,x) (y,x) 的真实分布,而 p ( ⋅ ) p(\cdot) p() 尝试估计。借鉴相关工作的见解,显然评分规则与在 q ( ⋅ ) q(\cdot) q() 评估的点 p ( ⋅ ) p(\cdot) p() 处的凸实值函数 G ( p ( ⋅ ) ) G(p(\cdot)) G(p()) 的切线密切相关。评分规则涉及观察事件和预期评分规则的推导如下:

S ( p ( ⋅ ) , y ) = G ( p ( ⋅ ) ) + ⟨ ∇ G ( p ( ⋅ ) ) , ( δ y − p ( ⋅ ) ) ⟩ S(p(\cdot), y) = G(p(\cdot)) + \langle \nabla G(p(\cdot)), (\delta_y - p(\cdot)) \rangle S(p(),y)=G(p())+G(p()),(δyp())⟩

S ( p ( ⋅ ) , q ( ⋅ ) ) = E y ∼ q ( ⋅ ) [ S ( p ( ⋅ ) , y ) ] = G ( p ( ⋅ ) ) + ⟨ ∇ G ( p ( ⋅ ) ) , ( q ( ⋅ ) − p ( ⋅ ) ) ⟩ S(p(\cdot), q(\cdot)) = E_{y \sim q(\cdot)} [S(p(\cdot), y)] = G(p(\cdot)) + \langle \nabla G(p(\cdot)), (q(\cdot) - p(\cdot)) \rangle S(p(),q())=Eyq()[S(p(),y)]=G(p())+G(p()),(q()p())⟩

其中 ∇ G ( p ( ⋅ ) ) \nabla G(p(\cdot)) G(p()) p ( ⋅ ) p(\cdot) p() G ( ⋅ ) G(\cdot) G() 的次梯度。注意,根据提供的概率 p ( ⋅ ) p(\cdot) p() 的评分规则的期望形式为 G ( p ( ⋅ ) ) G(p(\cdot)) G(p()),其证明通过将上面的 y ∼ q ( ⋅ ) y \sim q(\cdot) yq() 替换为 y ∼ p ( ⋅ ) y \sim p(\cdot) yp() 是直接的;第二项将为零。

如果对所有 p ( ⋅ ) p(\cdot) p() q ( ⋅ ) ∈ P q(\cdot) \in P q()P S ( q ( ⋅ ) , q ( ⋅ ) ) ≥ S ( p ( ⋅ ) , q ( ⋅ ) ) S(q(\cdot), q(\cdot)) \geq S(p(\cdot), q(\cdot)) S(q(),q())S(p(),q()),评分规则是合适的;如果只有当 p ( ⋅ ) = q ( ⋅ ) p(\cdot) = q(\cdot) p()=q() 时预期得分最小化,则评分规则是严格合适的。随着 G ( ⋅ ) G(\cdot) G() 成为凸函数,不等式的证明如下:

S ( q ( ⋅ ) , q ( ⋅ ) ) = G ( q ( ⋅ ) ) ≥ G ( p ( ⋅ ) ) + ⟨ ∇ G ( p ( ⋅ ) ) , ( q ( ⋅ ) − p ( ⋅ ) ) ⟩ = S ( p ( ⋅ ) , q ( ⋅ ) ) S(q(\cdot), q(\cdot)) = G(q(\cdot)) \geq G(p(\cdot)) + \langle \nabla G(p(\cdot)), (q(\cdot) - p(\cdot)) \rangle = S(p(\cdot), q(\cdot)) S(q(),q())=G(q())G(p())+G(p()),(q()p())⟩=S(p(),q())

其中不等式成立,因为 G ( ⋅ ) G(\cdot) G() 是凸函数,总是在 p ( ⋅ ) p(\cdot) p() 计算的切线之上。在 G ( ⋅ ) G(\cdot) G() 表现出严格凸性的情况下,先前概述的合适评分规则转变为严格合适评分规则。

严格合适评分规则的行为是在无限标记数据 L n L_n Ln 的极限下,随着 n → ∞ n \to \infty n,平均得分 1 n ∑ ( x , y ) ∈ L n S ( p ( ⋅ ∣ θ , x ) , y ) \frac{1}{n} \sum_{(x,y) \in L_n} S(p(\cdot|\theta,x), y) n1(x,y)LnS(p(θ,x),y) 对于我们的可识别模型家族 θ \theta θ 在“真实”模型处具有唯一的最大值。具有这些特性,可以调整 G ( ⋅ ) G(\cdot) G() 以适应不同的任务。例如,先前的工作使用 Gibbs 不等式证明最大化似然对应的评分函数确实是一个合适的评分规则。在以下章节中,我们将开发两个使用 Brier 分数和对数分数的获取函数,分别对应均方误差和 Kullback–Leibler 发散。

C. 主动学习的严格合适分数

使用严格合适评分规则,我们开发了一类基于后验期望分数差异的获取函数(即相对于 p ( θ ∣ L ) p(\theta|L) p(θL)),该分数适用于贝叶斯最优分类器和“真实”模型。由于使用 p ( θ ∣ L ) p(\theta|L) p(θL),这本质上是贝叶斯的。

Q S ( L ) = E p ( x ) p ( θ ∣ L ) [ E p ( y ∣ θ , x ) [ S ( p ( ⋅ ∣ θ , x ) , y ) − S ( p ( ⋅ ∣ L , x ) , y ) ] ] Q_S(L) = E_{p(x)p(\theta|L)} \left[ E_{p(y|\theta,x)} \left[ S(p(\cdot|\theta,x), y) - S(p(\cdot|L,x), y) \right] \right] QS(L)=Ep(x)p(θL)[Ep(yθ,x)[S(p(θ,x),y)S(p(L,x),y)]]

Q S ( L ) = E p ( x ) p ( θ ∣ L ) [ B ( p ( ⋅ ∣ L , x ) , p ( ⋅ ∣ θ , x ) ) ] Q_S(L) = E_{p(x)p(\theta|L)} [B(p(\cdot|L,x), p(\cdot|\theta,x))] QS(L)=Ep(x)p(θL)[B(p(L,x),p(θ,x))]

Q S ( L ) = E p ( x ) [ E p ( θ ∣ L ) [ G ( p ( ⋅ ∣ θ , x ) ) ] − G ( p ( ⋅ ∣ L , x ) ] ] Q_S(L) = E_{p(x)} \left[ E_{p(\theta|L)} [G(p(\cdot|\theta,x))] - G(p(\cdot|L,x)] \right] QS(L)=Ep(x)[Ep(θL)[G(p(θ,x))]G(p(L,x)]]

Δ Q S ( x ∣ L ) = E p ( x ′ ) [ E p ( y ∣ L , x ) [ G ( p ( ⋅ ∣ L , ( x , y ) , x ′ ) ] − G ( p ( ⋅ ∣ L , x ′ ) ] ] \Delta Q_S(x|L) = E_{p(x')} \left[ E_{p(y|L,x)} [G(p(\cdot|L, (x, y),x')] - G(p(\cdot|L,x')] \right] ΔQS(xL)=Ep(x)[Ep(yL,x)[G(p(L,(x,y),x)]G(p(L,x)]]

其中 x ′ x' x 是一个未标记样本,不同于 x x x,用于估计预期得分变化 Δ Q x ( x ∣ L ) \Delta Q_x(x|L) ΔQx(xL)

Q S ( L ) Q_S(L) QS(L) 有三个等效的变体,一个用于任意严格合适的评分规则 S ( q ( ⋅ ) , y ) S(q(\cdot), y) S(q(),y),一个用于对应的 Bregman 发散 B ( ⋅ , ⋅ ) B(\cdot, \cdot) B(,),第三个用于任意严格凸函数 G ( ⋅ ) G(\cdot) G()。它们的连接在文献中有提到。 Δ Q S ( x ∣ L ) \Delta Q_S(x|L) ΔQS(xL) 的形式对应于使用相同的简化。

引理 III.1(评分的特性):在完全条件分类模型 p ( y ∣ θ , x ) p(y|\theta,x) p(yθ,x) 的情况下,上述定义的 Q I ( L ) Q_I(L) QI(L) Q S ( L ) Q_S(L) QS(L) Δ Q I ( x ∣ L ) \Delta Q_I(x|L) ΔQI(xL) Δ Q S ( x ∣ L ) \Delta Q_S(x|L) ΔQS(xL) 全部非负。

证明:根据熵的定义, Q I ( L ) ≥ 0 Q_I(L) \geq 0 QI(L)0。现在一个关于熵的恒等式是 I ( p ( A ∣ B , C ) ) ≤ I ( p ( A ∣ B ) ) I(p(A|B,C)) \leq I(p(A|B)) I(p(AB,C))I(p(AB)),这意味着给定更多证据 C,A 的条件熵不能增加。因此,日志体积的减少从不为负。这意味着 Δ Q I ( x ∣ L ) ≥ 0 \Delta Q_I(x|L) \geq 0 ΔQI(xL)0。对于 Q S ( L ) Q_S(L) QS(L),结果直接来自评分规则的定义。表达式 S ( q ( ⋅ ) , q ( ⋅ ) ) − S ( p ( ⋅ ) , q ( ⋅ ) ) S(q(\cdot), q(\cdot)) - S(p(\cdot), q(\cdot)) S(q(),q())S(p(),q()) 可以匹配在 Eq 的外部方括号内,对于合适的评分规则,它是非负的。

对于 Δ Q S ( x ∣ L ) \Delta Q_S(x|L) ΔQS(xL),我们按如下方式工作。从方程开始,逆转得分:

E p ( y ∣ L , x ) [ E p ( x ′ ) p ( y ′ ∣ L , ( x , y ) , x ′ ) [ S ( p ( ⋅ ∣ L , ( x , y ) , x ′ ) , y ′ ) ] ] − E p ( x ′ ) p ( y ′ ∣ L , x ′ ) [ S ( p ( ⋅ ∣ L , x ′ ) , y ′ ) ] E_{p(y|L,x)} \left[ E_{p(x')p(y'|L,(x,y),x')} \left[ S(p(\cdot|L, (x, y),x'), y') \right] \right] - E_{p(x')p(y'|L,x')} [S(p(\cdot|L,x'), y')] Ep(yL,x)[Ep(x)p(yL,(x,y),x)[S(p(L,(x,y),x),y)]]Ep(x)p(yL,x)[S(p(L,x),y)]

= E p ( y ∣ L , x ) [ E p ( x ′ ) p ( y ′ ∣ L , ( x , y ) , x ′ ) [ S ( p ( ⋅ ∣ L , ( x , y ) , x ′ ) , y ′ ) − S ( p ( ⋅ ∣ L , x ′ ) , y ′ ) ] ] = E_{p(y|L,x)} \left[ E_{p(x')p(y'|L,(x,y),x')} \left[ S(p(\cdot|L, (x, y),x'), y') - S(p(\cdot|L,x'), y') \right] \right] =Ep(yL,x)[Ep(x)p(yL,(x,y),x)[S(p(L,(x,y),x),y)S(p(L,x),y)]]

第二行通过将 E p ( y ′ ∣ L , x ′ ) [ ⋅ ] E_{p(y'|L,x')}[\cdot] Ep(yL,x)[] 更改为 E p ( y ′ ∣ L , x , x ′ ) [ ⋅ ] E_{p(y'|L,x,x')}[\cdot] Ep(yL,x,x)[](模型是完全条件的),然后更改为 E p ( y , y ′ ∣ L , x , x ′ ) [ ⋅ ] E_{p(y,y'|L,x,x')}[\cdot] Ep(y,yL,x,x)[] 并重新排列。第二行由于早期使用的评分函数的最大性质而 ≥ 0 \geq 0 0。此外,它们保证学习将收敛到“真相”如下。

定理 III.2(主动学习的收敛性):我们有一个完全条件的分类模型 p ( y ∣ θ , x ) p(y|\theta,x) p(yθ,x),对于 θ ∈ Θ \theta \in \Theta θΘ,具有有限离散类 y 和输入特征 x。此外,有一个唯一的“真实”模型参数 θ r \theta_r θr,数据由其生成,先验分布 p ( θ ) p(\theta) p(θ) 满足 p ( θ r ) > 0 p(\theta_r) > 0 p(θr)>0,并且模型是可识别的。应用 n 步后,具有上述定义获取函数(即 Δ Q I ( x ∣ L ) \Delta Q_I(x|L) ΔQI(xL) Δ Q S ( x ∣ L ) \Delta Q_S(x|L) ΔQS(xL))的 AL 算法给出标记数据 L n L_n Ln,则 lim ⁡ n → ∞ Δ Q I ( x ∣ L n ) = 0 \lim_{n \to \infty}\Delta Q_I(x|L_n) = 0 limnΔQI(xLn)=0 并且同样适用于 Q S ( ⋅ ) Q_S(\cdot) QS()。此外,对于由 Δ Q I ( x ∣ L ) \Delta Q_I(x|L) ΔQI(xL) Δ Q S ( x ∣ L ) \Delta Q_S(x|L) ΔQS(xL) 获取的数据,当 n → ∞ n \to \infty n 时, lim ⁡ n → ∞ p ( θ ∣ L n ) \lim_{n \to \infty} p(\theta|L_n) limnp(θLn) θ = θ r \theta = \theta_r θ=θr 处的 delta 函数。

证明:引理 5 的证明可以很容易地适应以显示在 L n L_n Ln 中无限频繁出现的 x 和 n → ∞ Δ Q I ( x ∣ L n ) n \to \infty \Delta Q_I(x|L_n) n∞ΔQI(xLn) Δ Q S ( x ∣ L n ) \Delta Q_S(x|L_n) ΔQS(xLn) 都趋于零,随着 n → ∞ n \to \infty n,因为当 p ( θ ∣ L ∪ { ( x , y ) } ) → p ( θ ∣ L ) p(\theta|L \cup \{(x, y)\}) \to p(\theta|L) p(θL{(x,y)})p(θL) 时, Q ( L ∪ { ( x , y ) } ) → Q ( L ) Q(L \cup \{(x, y)\}) \to Q(L) Q(L{(x,y)})Q(L)。然后适应定理 1 的证明,这需要 x 的有限性和离散性,以显示随着 n → ∞ n \to \infty n 对于所有 x, Δ Q I ( x ∣ L n ) \Delta Q_I(x|L_n) ΔQI(xLn) Δ Q S ( x ∣ L n ) \Delta Q_S(x|L_n) ΔQS(xLn) 都趋于零。

现在考虑 Δ Q I ( x ∣ L n ) \Delta Q_I(x|L_n) ΔQI(xLn) 通过 KL 函数的性质等于 E p ( θ ∣ L n ) [ K L ( p ( y ∣ θ , x ) ∣ ∣ p ( y ∣ L n , x ) ) ] E_{p(\theta|L_n)}[KL(p(y|\theta,x)||p(y|L_n,x))] Ep(θLn)[KL(p(yθ,x)∣∣p(yLn,x))]。令

Θ N Z = { θ : ( lim ⁡ n → ∞ p ( θ ∣ L n ) ) > 0 } \Theta_ {N Z}=\left\{\theta:\left(\lim_ {n \rightarrow \infty} p\left(\theta \mid L_{n}\right)\right)>0\right\} ΘNZ={θ:(nlimp(θLn))>0}

现在 θ r ∈ Θ N Z \theta_r \in \Theta_{NZ} θrΘNZ 由于定理 1 的论点。从 KL 接近零,可以看出对于所有 x,随着 n → ∞ n \to \infty n p ( y ∣ θ , x ) p(y|\theta,x) p(yθ,x) 接近 p ( y ∣ L n , x ) p(y|L_n,x) p(yLn,x) 对于所有 Θ N Z \Theta_{NZ} ΘNZ 中的 θ \theta θ。这意味着所有 Θ N Z \Theta_{NZ} ΘNZ 中的 θ \theta θ 产生相同的 p ( y ∣ θ , x ) p(y|\theta,x) p(yθ,x)。由于模型是可识别的, Θ N Z \Theta_{NZ} ΘNZ 只有一个元素 θ r \theta_r θr

假设 Δ Q S ( x ∣ L n ) → 0 \Delta Q_S(x|L_n) \to 0 ΔQS(xLn)0 随着 n → ∞ n \to \infty n。考虑引理 III.1 证明的最终方程,因为从合适评分规则的属性来看, E p ( y ∣ L , x ) [ S ( p ( ⋅ ∣ L , ( x , y ) , x ′ ) , y ′ ) − S ( p ( ⋅ ∣ L , x ′ ) , y ′ ) ] ≥ 0 E_{p(y|L,x)}[S(p(\cdot|L, (x, y),x'), y') - S(p(\cdot|L,x'), y')] \geq 0 Ep(yL,x)[S(p(L,(x,y),x),y)S(p(L,x),y)]0,因此 E p ( y ∣ L , x ) p ( y ′ ∣ L , ( x , y ) , x ′ ) [ S ( p ( ⋅ ∣ L , ( x , y ) , x ′ ) , y ′ ) − S ( p ( ⋅ ∣ L , x ′ ) , y ′ ) ] E_{p(y|L,x)p(y'|L,(x,y),x')}[S(p(\cdot|L, (x, y),x'), y') - S(p(\cdot|L,x'), y')] Ep(yL,x)p(yL,(x,y),x)[S(p(L,(x,y),x),y)S(p(L,x),y)] 趋近于 0 对于所有 x, x’。将 Savage 关于严格合适评分规则的结果代入上述简化中:

E p ( y ∣ L , x ) p ( y ′ ∣ L , ( x , y ) , x ′ ) [ S ( p ( ⋅ ∣ L , ( x , y ) , x ′ ) , y ′ ) − S ( p ( ⋅ ∣ L , x ′ ) , y ′ ) ] = E p ( y ∣ L , x ) [ G ( p ( ⋅ ∣ L , ( x , y ) , x ′ ) ) ] − G ( p ( ⋅ ∣ L , x ′ ) ] E_{p(y|L,x)p(y'|L,(x,y),x')} [S(p(\cdot|L, (x, y),x'), y') - S(p(\cdot|L,x'), y')] = E_{p(y|L,x)} [G(p(\cdot|L, (x, y),x'))] - G(p(\cdot|L,x')] Ep(yL,x)p(yL,(x,y),x)[S(p(L,(x,y),x),y)S(p(L,x),y)]=Ep(yL,x)[G(p(L,(x,y),x))]G(p(L,x)]

由上述推论,随着 n → ∞ n \to \infty n 必须 → 0 \to 0 0。因为

E p ( y ∣ L , x ) [ p ( y ′ ∣ L , ( x , y ) , x ′ ) ] = p ( y ′ ∣ L , x ′ )  and  G ( ⋅ )  是严格凸的 E_{p(y|L,x)} [p(y'|L, (x, y),x')] = p(y'|L,x') \text{ and } G(\cdot) \text{ 是严格凸的} Ep(yL,x)[p(yL,(x,y),x)]=p(yL,x) and G() 是严格凸的

这必须意味着 p ( y ′ ∣ L , ( x , y ) , x ′ ) p(y'|L, (x, y),x') p(yL,(x,y),x) 接近 p ( y ′ ∣ L , x ′ ) p(y'|L,x') p(yL,x) 对于所有 y, y’ 和 x, x’ 随着 n → ∞ n \to \infty n

现在考虑随着 n → ∞ n \to \infty n

E p ( θ ∣ L n ) [ p ( y ∣ θ , x ) 2 ] = p ( y ∣ L n , x ) ∫ θ p ( θ ∣ L n ) p ( y ∣ θ , x ) p ( y ∣ L n , x ) p ( y ∣ θ , x ) d θ = p ( y ∣ L n , x ) p ( y ∣ L n , ( x , y ) , x ) → p ( y ∣ L n , x ) 2 E_{p(\theta|L_n)} \left[ p(y|\theta,x)^2 \right] = p(y|L_n,x) \int_{\theta} p(\theta|L_n)p(y|\theta,x) p(y|L_n,x) p(y|\theta,x)d\theta = p(y|L_n,x)p(y|L_n, (x, y),x) \to p(y|L_n,x)^2 Ep(θLn)[p(yθ,x)2]=p(yLn,x)θp(θLn)p(yθ,x)p(yLn,x)p(yθ,x)dθ=p(yLn,x)p(yLn,(x,y),x)p(yLn,x)2

因此,关于 p ( θ ∣ L n ) p(\theta|L_n) p(θLn) p ( y ∣ θ , x ) p(y|\theta,x) p(yθ,x) 方差接近于零对于所有 x, y。因此, lim ⁡ n → ∞ p ( θ ∣ L n ) \lim_{n \to \infty} p(\theta|L_n) limnp(θLn) 必须在产生相同 p ( y ∣ θ , x ) = lim ⁡ n → ∞ p ( y ∣ L n , x ) p(y|\theta,x) = \lim_{n \to \infty} p(y|L_n,x) p(yθ,x)=limnp(yLn,x) θ \theta θ 集上非零。再次,使用可识别性,必须有一个唯一的 θ \theta θ 非零极限。

使用 x 的有限性和离散性适应结果显示对于所有 x Δ Q ( x ∣ L n ) → 0 \Delta Q(x|L_n) \to 0 ΔQ(xLn)0 随着 n → ∞ n \to \infty n,由于真实数据总是有限的,这不是问题。有趣的是 Δ Q I ( x ∣ L ) \Delta Q_I(x|L) ΔQI(xL),即 BALD,也实现了收敛,这发生是因为模型是可识别的并且完全条件,在 AL 期间我们可以自由选择 x 值以区分不同的参数值 θ \theta θ。完全条件性也支持 BEMPS,因为它意味着 AL 选择中的任何固有偏差都通过使用数据分布 p ( x ) p(x) p(x) 被消除。但这也意味着该理论尚未被证明适用于半监督学习算法,其中完全条件性不适用。

算法 1:使用(10)估计点对点 Δ Q ( x ∣ L ) \Delta Q(x|L) ΔQ(xL)

需求:未标记数据点 x,现有标记数据 L,估计点 x’

需求:从标记数据 L 构建的模型/网络集成 Θ = { θ 1 , . . . , θ E } \Theta = \{\theta_1, . . .,\theta_E\} Θ={θ1,...,θE}

需求:输入为 y 的概率密度的严格凸函数 G ( ⋅ ) G(\cdot) G()

1: Q = 0
2: q x ( ⋅ ) = ∑ θ ∈ Θ p ( θ ∣ L ) p ( ⋅ ∣ θ , x ) q_x(\cdot) = \sum_{\theta \in \Theta} p(\theta|L)p(\cdot|\theta,x) qx()=θΘp(θL)p(θ,x)
3: 对 y 进行
4: q ( ⋅ ) = ∑ θ ∈ Θ p ( θ ∣ L , ( x , y ) ) p ( ⋅ ∣ θ , x ′ ) q(\cdot) = \sum_{\theta \in \Theta} p(\theta|L, (x, y))p(\cdot|\theta,x') q()=θΘp(θL,(x,y))p(θ,x)
5: Q + = q x ( y ) G ( q ( ⋅ ) ) Q+= q_x(y)G(q(\cdot)) Q+=qx(y)G(q())
6: q ( ⋅ ) = ∑ θ ∈ Θ p ( θ ∣ L ) p ( ⋅ ∣ x ′ ) q(\cdot) = \sum_{\theta \in \Theta} p(\theta|L)p(\cdot|x') q()=θΘp(θL)p(x)
7: Q − = G ( q ( ⋅ ) ) Q-= G(q(\cdot)) Q=G(q())
8: 返回 Q

与 BALD、MOCU 和 WMOCU 相比,BEMPS 使用严格合适评分规则的优势在于,如第 III-B 节所述,预期得分可以针对不同的推理任务进行调整。BALD 具有其质量 Q I ( ⋅ ) Q_I(\cdot) QI() 作为模型参数空间的确定性(负熵)。当某些参数的不确定性不会强烈影响分类性能时,这不支持 AL。这在我们的实验中反映了其糟糕的性能。然而,MOCU 存在收敛问题,如 ELR,通过 WMOCU 和 SMOCU 通过增加或操作评分函数来克服这些问题。

在这里插入图片描述

D. 评分函数:CoreMSE 和 CoreLog

评分规则通过奖励校准的预测分布来提高预测分布的质量。例如,可以为一些不同的推理任务开发评分规则,包括 Brier 分数、对数分数、贝塔家族等。神经网络使用的许多损失函数,如交叉熵损失,确实是严格合适的评分规则。

值得注意的是,定义在(10)中的获取函数 Δ Q S ( x ∣ L ) \Delta Q_S(x|L) ΔQS(xL) 是一种通用形式,适用于任何分类变量的严格合适评分函数。例如,使用对数评分规则,我们有 S l o g ( p ( ⋅ ) , y ) = l o g p ( y ) S_{log}(p(\cdot), y) = log p(y) Slog(p(),y)=logp(y) G l o g ( p ( ⋅ ) ) = − I ( p ( ⋅ ) ) G_{log}(p(\cdot)) = -I(p(\cdot)) Glog(p())=I(p())。对应的(7)形式化为

Q C o r e L o g ( L ) = E p ( x ) p ( θ ∣ L ) [ E p ( y ∣ L , x ) ] Q_{CoreLog}(L) = E_{p(x)p(\theta|L)} [E_{p(y|L,x)}] QCoreLog(L)=Ep(x)p(θL)[Ep(yL,x)]

同样,使用称为 Brier 分数的平方误差评分规则,我们有 S M S E ( p ( ⋅ ) , y ) = − ∑ y ^ ( p ( y ^ ) − 1 y = y ^ ) 2 S_{MSE}(p(\cdot), y) = - \sum_{ŷ}(p(ŷ)- 1_{y=ŷ})^2 SMSE(p(),y)=y^(p(y^)1y=y^)2 G M S E ( p ( ⋅ ) ) = ∑ y p ( y ) 2 − 1 G_{MSE}(p(\cdot)) = \sum_{y} p(y)^2 - 1 GMSE(p())=yp(y)21。在(7)中的 Q ( L ) Q(L) Q(L) 定义为

Q C o r e M S E ( L ) = E p ( x ) p ( θ ∣ L ) [ ∑ y ( p ( y ∣ θ , x ) − p ( y ∣ L , x ) ) 2 ] Q_{CoreMSE}(L) = E_{p(x)p(\theta|L)} \left[ \sum_{y} (p(y|\theta,x) - p(y|L,x))^2 \right] QCoreMSE(L)=Ep(x)p(θL)[y(p(yθ,x)p(yL,x))2]

如上所述,最小化 Brier 分数在最小二乘意义上得到概率,即最小化预测概率和一次性标签表示之间的平方误差,对非常低概率事件关注较少。同时,对数概率正确地获取了概率尺度,关注所有事件。在大多数情况下,我们可以创建一个特定模型来匹配几乎任何 Bregman 发散(例如,最小平方误差是高斯)。在实践中,我们还可以在对数概率中使用鲁棒模型(例如,Dirichlet-多项式而不是多项式,负二项式而不是泊松,Cauchy 而不是高斯)。将上述两个 G ( ⋅ ) G(\cdot) G() 函数与(10)结合,得到了两个不同评分规则的获取函数。

Δ Q C o r e M S E ( x ∣ L ) = E p ( x ′ ) p ( y ∣ L , x ) [ ∑ y ′ ( p ( y ′ ∣ L , ( y , x ) , x ′ ) − p ( y ′ ∣ L , x ′ ) ) 2 ] \Delta Q_{CoreMSE}(x|L) = E_{p(x')p(y|L,x)} \left[ \sum_{y'} (p(y'|L, (y,x),x') - p(y'|L,x'))^2 \right] ΔQCoreMSE(xL)=Ep(x)p(yL,x) y(p(yL,(y,x),x)p(yL,x))2

Δ Q C o r e L o g ( x ∣ L ) = E p ( x ′ ) p ( y ∣ L , x ) [ E p ( y ′ ∣ L , x ′ ) ] \Delta Q_{CoreLog}(x|L) = E_{p(x')p(y|L,x)} [E_{p(y'|L,x')}] ΔQCoreLog(xL)=Ep(x)p(yL,x)[Ep(yL,x)]

E. 理解不确定性和多样性

Δ Q \Delta Q ΔQ 函数(16)和(17)如何与早期 AL 使用的传统函数相关? Δ Q C o r e M S E \Delta Q_{CoreMSE} ΔQCoreMSE 衡量获取 x 的标签时模型概率的平均变化, Δ Q C o r e L o g \Delta Q_{CoreLog} ΔQCoreLog 衡量获取前后模型概率的平均 KL。因此,它们衡量的是获取 x 标签引起的平均模型变化。这些是通过数据 x 揭示的认知不确定性的度量,揭示了模型在数据点周围的不确定性,并且不衡量随机不确定性。注意, p ( y ∣ L , x ) p(y|L,x) p(yL,x) 是认知确定性的代理,在真实模型允许高准确度预测的常见情况下,这在 AL 实验中很常见。

那多样性呢,AL 中使用的另一传统函数?(16)和(17)在 x 是要标记的数据批时也成立。此外,它们提供了一个基本理论目标来最大化批量 AL,而我们认为多样性是良好批量 AL 的观察特征,应从基础理论中推导出来,例如我们的理论。

在这里插入图片描述

F. 增强 BEMPS 的批量多样性

算法 2 给出了 BEMPS 的实现,用于任意严格凸函数 G ( ⋅ ) G(\cdot) G(),返回具有最佳估计度量的数据点。要使用 Bregman 发散或得分,首先应该推导对应的严格凸函数 G ( ⋅ ) G(\cdot) G()。当 G ( ⋅ ) G(\cdot) G() 为负熵时,我们称之为 CoreLog,当 G ( ⋅ ) G(\cdot) G() 为平方和时,我们称之为 CoreMSE,分别对应对数或 Brier 评分规则。算法 2 和 3 都使用固定估计池 X X X,即用于估计预期值 E p ( x ′ ) [ ⋅ ] E_{p(x')}[\cdot] Ep(x)[] 的初始未标记数据的固定随机子集。算法 2 调用算法 1,后者实现(10),并假设 x 的标签时,估计相对于 x ′ ∈ X x' \in X xX 的预期得分变化。注意, p ( θ ∣ L , ( x , y ) ) p(\theta|L, (x, y)) p(θL,(x,y)) 通过集成从 p ( θ ∣ L ) p(\theta|L) p(θL) 计算如下:

p ( θ ∣ L , ( x , y ) ) ≈ p ( θ ∣ L ) p ( y ∣ θ , x ) / ∑ θ ∈ Θ p ( θ ∣ L ) p ( y ∣ θ , ( x ) ) p(\theta|L, (x, y)) \approx p(\theta|L)p(y|\theta,x) / \sum_{\theta \in \Theta} p(\theta|L)p(y|\theta, (x)) p(θL,(x,y))p(θL)p(yθ,x)/θΘp(θL)p(yθ,(x))

算法 3 返回代表具有增强多样性的批次的 B 个数据点:首先调用算法 1 计算未标记池中每个数据点 x 在估计池 X 上得分值变化的预期变化向量。因此,该向量传达了直接与 x 添加导致得分变化相关的不确定性信息。其他工作使用的梯度嵌入表示数据点对模型的影响,而我们的向量表示数据点对均值合适分数的直接影响。同时,算法 3 计算这些相同 xs 的 Δ Q ( x ∣ L ) \Delta Q(x|L) ΔQ(xL) 估计。然后对得分数据 x 的前 T% 进行 k-Means 聚类,并返回每个聚类中最接近聚类均值的代表。直觉是:1)只有得分较高的数据 x 应出现在批次中;2)这些聚类捕捉了未标记池中样本推导的预期得分变化模式;3)同一聚类中的样本可能对学习有类似影响,因此不应在一个批次中共存。

在这里插入图片描述

G. BEMPS 的集成

计算 p ( ⋅ ∣ L , x ) p(\cdot|L, x) p(L,x) p ( ⋅ ∣ L , ( x , y ) , x ′ ) p(\cdot|L, (x, y),x') p(L,(x,y),x) 是不可行的。我们通过两种集成方法在算法 4 中近似对 θ \theta θ 的积分:深度集成和 MC-Dropout。我们首先实现深度集成,因为该方法已被成功用于提高预测性能,MC-Dropout 尝试加速获取过程

深度集成:令 Θ \Theta Θ 表示一组 DNN 模型(即我们实验中用于文本的 DistilBERT 和用于图像的 VGG-16),大小为 E。每个单独模型 θ e \theta_e θe 使用增量扩展的标记池 L 的随机生成的训练-验证拆分进行训练。在每次获取迭代中,训练-验证比例设置为 70/30。换句话说,不同的模型使用不同的训练/验证拆分进行训练,这促进了集成多样化。我们称这种拆分过程为动态验证集(即 Dynamic VS)。一旦集成模型被训练,可以通过算法 3 获取一批样本。发现这种动态验证方法可以提高训练效率和模型性能,如我们的消融研究所示。

在这里插入图片描述

MC-Dropout:使用 DNN 进行深度集成的一个缺点是其在训练主动学习者(即分类器)方面的高计算成本。先前的工作表明,通过在测试时进行几次随机前向传递,可以获得后验的蒙特卡洛样本。因此,标准深度集成方法中常用的 E 个模型的集成可以在 AL 过程中使用 MC-Dropout 模型替代,以近似对 θ \theta θ 的积分。换句话说,预测分布 p ( ⋅ ∣ L , x ) p(\cdot|L,x) p(L,x) p ( ⋅ ∣ L , ( x , y ) , x ′ ) p(\cdot|L, (x, y),x') p(L,(x,y),x) 可以通过 E 次前向传递在单个训练模型上估计,而不是训练分类器 E 次,从而节省计算成本,特别是当 E 的值变大时。

IV. 实验

我们进行了大量分类任务的实验,以展示 BEMPS 的有效性,比较了 CoreMSE 和 CoreLog 与一些最近的 AL 方法。为了展示 BEMPS 框架的可靠性和稳健性,我们考虑了四个基准文本数据集和两个基准图像数据集,用于二分类或多分类任务。此外,超越定量研究,我们进一步使用数据图和 t-SNE 可视化不同的 AL 方法,以深入理解它们的采样行为以及模型校准。

在这里插入图片描述

A. 文本分类

  1. 数据集:我们使用四个基准数据集:IMBD、AG NEWS、PUBMED 和 SST5 用于文本分类,如表 II 所示。IMDB 包含 50K 条电影评论,分类为正面或负面。AG NEWS 包括 120K 条文本,分布在四个类别:科学/技术、世界、商业和体育。PUBMED 20k 设计用于句子分类,包含约 20K 医学摘要,分为五类:客观、背景、结论、结果和方法。同样,SST5 包括 11K 条电影评论中的句子,标有五个情感类别。

  2. 基线:令 B 表示批次大小。我们考虑两种性能比较:非批量主动学习(B = 1)和批量主动学习(B > 1)。在非批量主动学习的情况下,将 CoreMSE 和 CoreLog 与最大熵、BALD、MOCU 和 WMOCU 以及随机基线进行比较。对于批量主动学习,将 CoreMSE 和 CoreLog 与 WMOCU、BADGE 和 ALPS 以及随机基线进行比较。

CoreMSE 和 CoreLog:在 BEMPS 的默认配置中,我们使用深度集成。对于非批量主动学习,我们选择了与分类误差相关的不确定性得分最高的样本。对于批量主动学习,每个未标记池中的样本表示为(10)计算的得分向量。然后我们使用 k-MEANS 生成 B 个聚类,并从每个聚类中选择最接近聚类中心的样本形成批次。

随机:我们从未标记池中均匀采样 B 个样本。

最大熵:我们选择了预测分布熵最高的样本。

BALD:类似于最大熵,我们选择了基于标签这些样本将如何改善模型参数的最大互信息的样本。

MOCU 和 WMOCU:根据先前的工作,对于非批量主动学习,我们选择了与分类误差相关的不确定性得分最高的样本。类似于 CoreMSE 和 CoreLog,我们将未标记池中的每个样本表示为得分向量,如(5)和(10)计算。对于批量主动学习,我们使用 k-MEANS 聚类方法选择了 B 个样本。

BADGE:根据先前的工作,我们使用预训练语言模型生成的梯度嵌入表示每个样本,特别是在我们的实验中使用 DistilBERT。然后,使用 k-MEANS++ 生成 B 个聚类,并选择每个聚类中最接近均值的代表。

ALPS:与 BADGE 不同,我们根据先前的工作生成 DistilBERT 的意外嵌入作为 k-MEANS 的输入。然后,使用类似的方法选择批次中的 B 个样本。

  1. 模型配置:我们使用一个小而快速的预训练语言模型 DistilBERT 作为我们实验中的骨干分类器。我们在每次 AL 迭代后对每个数据集进行 DistilBERT 微调,使用随机重新初始化,证明在使用新获取的样本进行增量微调时可以提高模型性能。最大序列长度设置为 128,在微调 DistilBERT 时使用最多 30 个时期,并进行早停。我们使用 AdamW 作为优化器,学习率为 2e-5,beta 为 0.9/0.999。所有实验均在 8 个 Tesla 16 GB V100 GPUs 上运行。

每个 AL 方法在每个数据集上使用不同的随机种子运行 5 次。对于非批量主动学习,批量大小 b 设置为 1,对于批量主动学习,批量大小 B 设置为 {5, 10, 50, 100}。我们使用动态 VS 训练了五个 DistilBERT 作为深度集成的成员,如算法 4 描述。注意,我们的 CoreMSE 和 CoreLog 实现不依赖于单独的大型验证集。

  1. 比较性能指标:我们遵循先前的工作来计算配对比较矩阵,但使用基于计数的算法,如图 1 右侧所示。矩阵的行和列对应于我们实验中使用的 AL 方法。每个单元格表示方法 i 和方法 j 在所有数据集 (D) 上的比较结果。令 C i , j , d = 1 C_{i,j,d} = 1 Ci,j,d=1 当方法 i 在数据集 d 上击败方法 j 时,否则为 0。每个单元格的值计算为 C i , j = ∑ D C i , j , d C_{i,j} = \sum_D C_{i,j,d} Ci,j=DCi,j,d。为了确定每个 C i , j , d C_{i,j,d} Ci,j,d 项的值,我们使用双侧配对 t 检验比较它们在最大间隔标记样本量 { l 1 i , j , d , l 2 i , j , d , . . . , l 5 i , j , d } \{l_{1i,j,d}, l_{2i,j,d}, . . ., l_{5i,j,d}\} {l1i,j,d,l2i,j,d,...,l5i,j,d} 从学习曲线的五个加权 F1 得分(或准确性)中的表现。我们计算 t 分数为 KaTeX parse error: Expected 'EOF', got '̂' at position 17: … = \sqrt{5} \mû̲/\sigmâ,其中 KaTeX parse error: Expected 'EOF', got '̂' at position 4: \mû̲KaTeX parse error: Expected 'EOF', got '̂' at position 7: \sigmâ̲ 是通常的样本均值和标准差。例如,在图 1 中,使用步长 50 的五个样本:第一个样本 l 1 i , j , d l_{1i,j,d} l1i,j,d 在 50 个标签后选择,第二个 l 1 i , j , d l_{1i,j,d} l1i,j,d 在 100 后选择,依此类推。而对于图 2,使用步长 100。 KaTeX parse error: Expected 'EOF', got '̂' at position 4: \mû̲ = \frac{1}{5} …KaTeX parse error: Expected 'EOF', got '̂' at position 7: \sigmâ̲ = \sqrt{\frac{…。如果方法 i 以 t 分数大于 2.776(对应于 p 值小于 0.05)击败方法 j,则将 C i , j , d C_{i,j,d} Ci,j,d 设置为 1。我们将每对比较的结果相加,以确定每种方法的总性能得分,如矩阵的“总计”列所示。得分最高的方法在评估的 AL 方法中排名最佳。

  2. 结果和分析。非批量主动学习:我们首先在 SST5 数据集上将基于算法 2 的 CoreMSE 和 CoreLog 与基线进行比较,以展示这些方法在分类困难设置中表现如何,其中类不平衡。图 1 左侧的学习曲线显示 CoreMSE、CoreLog 和 WMOCU 优于考虑的所有其他方法,我们可以将其归因于它们对分类准确性相关的不确定性估计更好。在这三种方法中,CoreMSE 在 F1 得分方面表现最好。图 1 右侧的矩阵则展示了比较性能的统计总结。CoreMSE 具有最高的总量,这进一步证实了它在 AL 中获取信息样本的有效性。

批量主动学习:我们将基于算法 4 实现的批量 CoreMSE 和 CoreLog 与 BADGE、ALPS 和批量 WMOCU 在表 II 列出的四个数据集上进行了比较。我们使用我们的算法 4 扩展了 WMOCU,以构建其批量对应物。具体而言,我们使用其点误差估计(即(10))生成 v e c x vec_x vecx。随机基线随机选择 B 个未标记样本。这里我们以 B = 50 的结果为例。可以在在线可用的附录 B 中找到具有不同批量大小的更全面结果,包括准确性。

图 2 中的学习曲线显示,随着获取样本数量的增加,批量 CoreMSE 和 CoreLog 几乎总是优于其他 AL 方法。通过我们的批量算法设计的批量 WMOCU 与使用梯度/意外嵌入增加批量多样性的 BADGE 和 ALPS 相比,表现良好。这些结果表明,从学习的分数变化向量(即(10))的聚类中选择代表样本是适当的,从而提高了 AL 性能。此外,我们的方法和其他方法在 PUBMED 和 SST-5 上的性能差异表明,在这些不平衡数据集中,批量 CoreMSE 和 CoreLog 在注释预算有限的情况下仍能取得良好效果。

我们还创建了两个不同批量大小的配对比较矩阵,分别使用 F1 得分或准确性。图 3 显示了四个矩阵的总和,总结了四个数据集上的比较性能。最大单元格值现在为 4× 4 = 16。换句话说,如果一种方法在四个不同批次大小的四个数据集上击败另一种方法,则对应的单元格值为 16。使用 F1 得分和准确性分别计算的两个矩阵显示 CoreMSE 和 CoreLog 均高于其他方法。因此,我们将 CoreMSE 和 CoreLog 的更好表现归因于它们的不确定性估计与预测性能的相关性比研究的其他方法更高。

在这里插入图片描述

B. 消融研究

批量大小:在图 4(a) 中,我们绘制了不同批量大小(即 B ∈ 1 , 5 , 10 , 50 , 100 B \in {1, 5, 10, 50, 100} B1,5,10,50,100)的批量 CoreMSE 的学习曲线用于 PUBMED 和 SST5。曲线显示较小批量大小(5 或 10)的性能优于较大批量大小(50 或 100),特别是在早期训练迭代中。此外,批量版本的 CoreMSE 和 CoreLog 比非批量版本表现明显更好。为了获取 B 个样本,非批量(即 B = 1)情况必须连续执行多次一步前瞻优化获取(算法 1 和 2)。相比之下,批量情况只需执行一次获取,启发式地引入了一种基于误差曲面的多样性(算法 1 和 3)。虽然另一项研究中说明了多样性的重要性,但他们在实验中使用了更大的批量大小,这在 BatchBALD 中也有现象。因此我们假设(1)的一步前瞻仅是贪婪的,而不是最优的。换句话说,数据批次的多样性是 Δ Q \Delta Q ΔQ 函数(16)和(17)的优势,这主要发生在批量较小的情况下,获取标记数据后的模型概率估计保留了一些准确性。总体而言,学习曲线显示批量算法优于非批量算法,并且较小的批量大小优于较大的批量大小。

批量多样性:为了进一步研究算法 3 的有效性,我们考虑了以下变体:1)预训练 LM:我们使用 DistilBERT 生成的嵌入进行 k-Means 聚类,类似于 BERT-KM;2)CoreMSE-topK 和 CoreLog-topK:我们简单地选择 Qx 排名最高的 B 个样本。图 4(b) 所示的结果表明,批量 CoreMSE 和 CoreLog 明显优于相应的 CoreMSE-topK 和 CoreLog-topK,这展示了算法 3 能够促进有利于文本分类的批量多样性。预训练 LM 和批量 CoreMSE/CoreLog 之间的性能差异表明,将每个未标记样本表示为分数变化预期向量(即(10))对于捕捉用于多样化的信息是有效的。

在这里插入图片描述

在这里插入图片描述

动态 VS:我们通过将批量 CoreMSE 与动态 VS 与其以下变体进行比较,研究动态 VS 如何影响集成模型训练:1)3/30 个时期没有 VS:没有 VS 的集成模型训练,每个模型训练 3 或 30 个时期;2)固定长度 (#1000) VS:一个从标记池中分离出来的预先固定的 1000 个标记样本的验证集,用于一些现有的 AL 实验工作;3)恒定 VS:动态 VS 的一种变体,每次 AL 迭代后生成一个随机拆分,然后由所有集成模型共享。图 5 显示,在 PUBMED 和 SST5 上,动态 VS 在第三次获取迭代后获得了优势。毫不奇怪的是,没有 VS 的 30 个时期和固定长度 VS 在早期获取迭代中表现更好,因为它们在训练 DistilBERT 时使用了整个扩展的标记池,而 CoreMSE 使用了 70%。但是,在没有验证集的情况下选择时期数只是启发式的。此外,固定长度 VS 介于恒定 VS 和动态 VS 之间,这表明集成内在的动态训练集变异性是改进的来源。

在这里插入图片描述

深度集成与 MC-Dropout:CoreMSE 和 CoreLog 使用深度集成,而当使用 MC-Dropout 时,分别称为 CoreMSE-MC 和 CoreLog-MC。图 2 还显示,使用 MC-dropout 的 CoreMSE-MC 和 CoreLog-MC 的性能与使用相同注释预算(即 500)和相同批量大小(即 50)的深度集成的 CoreMSE 和 CoreLog 非常相似。F1 和准确性排名不仅在深度集成中的 CoreMSE-MC 和 CoreMSE 之间紧密匹配,而且在 CoreLog-MC 和 CoreLog 之间也表现出相似的趋势,如图 3 所示。由于文献中的集成,结果出人意料。然而,MC-Dropout 以显著减少的训练时间实现了与深度集成相似的性能,如表 IV 和 V 所示。它提供的训练加速从 4 倍增加到 7 倍,具体取决于集成的规模。

在这里插入图片描述

C. 图像分类

如第 IV-B 节所示,CoreMSE-MC 和 CoreLog-MC 可以显著减少训练时间,同时保持与深度集成对应物相同的性能。因此,在不失普遍性的情况下,我们将我们的 CoreMSE-MC 和 CoreLog-MC 与其他基线进行了图像分类任务的比较。

在这里插入图片描述

  1. 数据集:我们使用了两个基准数据集进行图像分类:MINST 和 CIFAR10。MNIST 包含 28 个灰度手写数字图像,范围从 0 到 9。这些图像分别分为 60K 和 10K 张用于训练和测试。CIFAR10 包含 32 × 32 彩色图像,共 10 个类别。每个类别有 6K 张图像。训练集和测试集分别包含 50K 和 10K 张图像。这两个图像数据集已成为许多研究人员进行初始基准测试图像分类任务的首选。

  2. 基线:我们考虑了 WMOCU、BADGE 和 BatchBALD 以及一个随机基线。由于我们在 MC-Dropout 的上下文中利用这些获取函数,我们将这些变体分别称为 CoreMSE-MC、CoreLog-MC、WMOCU-MC、BADGE-MC 和 Random-MC。此外,我们还将 BatchBALD 包含在我们的基线中,作为一种 AL 方法,它在批量设置中扩展了 BALD,同时使用 MC-Dropout。具体而言,我们遵循 BatchBALD 选择基于其排名互信息的顶级 B 个信息样本,BALD 用于衡量标签这些样本如何改进模型参数。我们故意排除了 ALPS 方法,因为它依赖于预训练语言模型,使其不适用于图像分类任务。

  3. 模型配置:对于 MNIST 数据集,我们采用了贝叶斯神经网络 (BNN) 作为骨干分类器。与传统神经网络相比,BNN 提供了增强的图像数据扩展性。我们选择 MC-Dropout 作为我们集成模型的变分近似方法,主要是由于其在处理大模型和数据集时的有效扩展性。对于 CIFAR10,我们利用 PyTorch 的预训练 VGG-16bn,该模型在全连接层之前包含一个 dropout 层,具有 512 个隐藏单元。我们进行了五次实验,每次使用五个 MC-Dropout 样本,每个批量大小不同(B 值为 5、10、50 和 100)。所有神经网络训练了 30 个时期,使用初始学习率设置为 1e-4 的 Adam 优化器。所有实验均在配备 RTX 3090 GPU 和 Intel Core i9 CPU 处理器的工作站上进行。

  4. 比较性能指标:使用第 IV-A4 节中讨论的性能比较指标,我们生成了一个配对比较矩阵,将 CoreMSE-MC 和 CoreLog-MC 与其他基线进行比较。此矩阵中每个单元格的最大值为 2× 4 = 8,反映了两个数据集和四个不同批量大小的组合。为澄清,如果一种方法在两个数据集和所有四个批量大小上始终优于另一种方法,则对应的单元格值为 8。

  5. 结果和分析:如图 6 所示,我们可以观察到这些方法在两个图像分类数据集上的表现。图 6(a) 所示的学习曲线展示了与文本分类中的平衡数据集(如 IMDB 和 AG NEWS)相似的趋势。CoreMSE-MC 和 CoreLog-MC 优于所有其他基线,WMOCU-MC 是下一个最具竞争力的方法,超过了 BatchBALD 和 BADGE-MC。随机基线在所有方法中始终表现最差。此外,图 6(b) 中显示的比较矩阵支持了 CoreMSE-MC 和 CoreLog-MC 显著优于其他方法的观察。因此,BEMPS 框架中集成的评分函数在准确性和 F1 得分方面始终提供出色的性能,从而加强了我们提出的方法的稳健性。

在这里插入图片描述

V. 不同AL方法的采样行为

在本节中,我们深入探讨了这些主动学习(AL)方法的采样行为,以进一步理解它们的性能差异。我们考虑了以下三个方面:

  1. 使用数据图(Data Maps)【23】来通过训练动态可视化不同AL方法的采样行为;
  2. 通过计算预期校准误差方法评估分类器的校准;
  3. 探索每种AL方法在决策边界上的选择样本分布。

A. 使用数据图解读采样行为

根据【23】的方法,我们为PUBMED数据集创建了一个数据图,并分析了不同AL方法的样本选择模式。具体来说,我们使用基于训练过程行为的统计数据(即训练动态)进行上下文化。

如【23】所定义,样本 (xi, yi) 的训练动态被定义为从N个周期中得出的统计数据,然后用于生成我们地图上的坐标。第一个度量试图捕捉学习者为观察分配正确标签的信心,给定其概率分布。信心是所有周期中真实标签的平均模型概率:

μ i = 1 N ∑ n = 1 N p ( y i ∣ θ ( n ) , x i ) \mu _ i = \frac{1}{N} \sum_{n=1}^{N} p(y_i|\theta(n), x_i) μi=N1n=1Np(yiθ(n),xi)

其中 θ ( n ) \theta(n) θ(n) 表示在第n周期结束时获得的分类器参数, y i y_i yi 表示真实标签。可变性度量为各周期中 p ( y i ∣ θ ( n ) , x i ) p(y_i|\theta(n), x_i) p(yiθ(n),xi) 的扩展:

KaTeX parse error: Expected 'EOF', got '̂' at position 8: \sigmâ̲_i = \sqrt{\fra…

在这里插入图片描述

我们还通过计算模型在多个周期中正确标记 x i x_i xi 的实例比例来考虑正确性。根据这三个维度,我们将这些训练样本映射到两个轴上:y轴表示平均模型信心,x轴表示样本的可变性。该图被可视化为数据集的二维表示,其中样本根据其“可学性”统计数据分布在图上。

信心和可变性均用于根据其属性将样本聚类为三个不同区域,如下所示:

  1. “易学”样本具有高信心和低可变性。分类器始终准确预测这些样本;
  2. “模糊”样本具有高可变性。换句话说,它们真实类别的预测概率在训练过程中频繁变化。因此,分类器对这些样本犹豫不决;
  3. “难学”样本具有低信心和低可变性,因此分类器对这些样本的表现通常很差。

除了这三个区域,我们还根据【66】的启发将样本进一步分类为四种类型,以探索不同AL方法在采样迭代期间的分布变化。正确性评分将这四种类型从0到1分类:易([0.00, 0.25));中([0.25, 0.50));难([0.50, 0.75));和不可能([0.75, 1.00))。

图7(b)显示了CoreMSE和CoreLog在采样迭代中比其他AL方法获取了更多的中、难和不可能样本。因此,CoreMSE和CoreLog能够有效地从“模糊”和“难学”区域中获取样本,如图7(a)所示。

在这里插入图片描述

B. 预期校准误差

预期校准误差(ECE)评估预测概率和经验准确性之间的一致性【67】。它将模型的预测准确性与其经验准确性放入分箱中,以估计校准误差【67】【68】。ECE利用等质量分箱,并选择保持校准函数单调性的最大分箱数。具体而言,ECE计算公式为:

E C E = ∑ m = 1 M ∣ B m ∣ n ∣ a c c u r a c y ( B m ) − c o n f i d e n c e ( B m ) ∣ ECE = \sum_{m=1}^{M} \frac{|B_m|}{n} |accuracy(B_m) - confidence(B_m)| ECE=m=1MnBmaccuracy(Bm)confidence(Bm)

其中n是样本数量,M是区间分箱数。准确性和置信值之间的差异反映了校准差距。

我们使用ECE来衡量我们的文本分类器的校准情况。为此,我们在每个周期后绘制了ECE的运行平均值,如图8所示,其中分箱大小M设置为10。这些图表显示,使用CoreMSE或CoreLog训练的文本分类器产生了更好的校准,这可以归因于最小化严格合适评分规则应降低ECE【27】。值得注意的是,使用CoreMSE训练的分类器在所有四个文本数据集上始终达到了最低的ECE。这一观察结果表明,如果主要目标是提高校准,CoreMSE可能比CoreLog更为有利。

C. 获取样本的分布

仅关注不确定性的查询策略往往会选择靠近决策边界的相似标签,这可能会对学习结果产生负面影响。如图9所示的t-SNE图中,白色交叉标记每个选择的样本,彩色点表示其真实标签。WMOCU集中在高不确定性区域,未能充分多样化其样本选择,从而引入偏差和低效率。相反,ALPS和BADGE选择了更多样化的样本集,有效覆盖了特征空间。同样,CoreMSE和CoreLog在选择不确定样本和确保多样性之间实现了良好的平衡,突显了多样性在AL方法成功中的作用。对于较小的批量大小,CoreMSE倾向于从不同的聚类区域选择最高不确定性的样本。然而,随着批量大小的增加,算法倾向于重复选择来自同一地区的样本,这些样本在决策边界方面可能传递类似的信息,如图10所示。相反,较小的批量大小在每次获取轮次中选择较少冗余的样本,从而使其累计选择对于学习分类器更有信息性。

在这里插入图片描述

在这里插入图片描述

VI. 结论

在本文中,我们介绍了贝叶斯估计均值合适分数 (BEMPS) 框架,这是一种利用严格合适评分规则量化认知不确定性和增强样本多样性的主动学习新方法。我们开发了两个获取函数,CoreMSE 和 CoreLog,并通过广泛的实验展示了它们在文本和图像分类任务中的优越性能。我们的理论分析确立了 BEMPS 的收敛特性,我们的经验研究强调了其稳健性和可靠性。未来的工作包括将 BEMPS 扩展到其他机器学习任务,如回归和强化学习,并探索其在实际场景中的应用。

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值