【荐读IEEE TPAMI】关于部分标签学习平均损失的鲁棒性

点击上方“计算机书童”,选择加"星标"或“置顶”

顶会论文解读,第一时间分

题目:On the Robustness of Average Losses for Partial-Label Learning

关于部分标签学习平均损失的鲁棒性

作者:Jiaqi Lv; Biao Liu; Gang Niu; LeiFeng ,NingXu; XinGeng; MiaoXu; BoAn; Masashi Sugiyama


摘要

部分标签学习(Partial-label learning, PLL)利用具有部分标签(PLs)的实例,其中每个PL包含多个候选标签,但只有一个是真实标签(True Label, TL)。在PLL中,基于识别的策略(Identification-based Strategy, IBS)在训练过程中即时净化每个PL,以选择(最有可能的)TL;而基于平均的策略(Average-based Strategy, ABS)则在训练时平等对待所有候选标签,并让训练出的模型能够预测TL。尽管PLL研究一直关注IBS以获得更好的性能,但ABS也值得研究,因为现代IBS在训练初期表现得像ABS,以准备PL的纯化和TL的选择。在本文中,我们分析了ABS为何不令人满意,并提出了如何改进它。理论上,我们提出了两种PLL的问题设置,并证明了具有有界多类损失的平均PL损失(Average PL Losses, APLLs)总是稳健的,而具有无界损失的APLLs可能是非稳健的,这是PLL的首次稳健性分析。实验上,我们有两个有希望的发现:使用有界损失的ABS可以匹配/超过使用无界损失的IBS的最新性能;在使用稳健的APLLs进行预热启动后,IBS可以进一步提高自身。我们的工作引起了对ABS研究的关注,这反过来又可以促进IBS并推动整个PLL的发展。

关键词

  • 部分标签学习 (Partial-label learning)

  • 稳健损失 (robust loss)

  • 稳健性分析 (robustness analysis)

  • 弱监督学习 (weakly supervised learning)

I. 引言

深度神经网络(DNNs)已成为多种应用领域的基础模型,它们将输入数据(例如图像)转换为特定的输出(例如类别)。DNNs的成功在很大程度上归功于其内部能力,能够逼近从输入到输出的任意复杂函数映射 [1], [2], [13], [14],以及外部驱动力——标记的训练数据。普遍认为,随着数据量的增加,DNNs的性能会提高,只有在数据量达到百万级别时才会趋于饱和 [43], [54], [57], [77]。然而,DNNs的卓越性能往往伴随着高昂的标记成本,特别是当数据标记需要专业知识时。缺乏专业专家、昂贵且耗时的标记过程以及隐私问题,这些都可能对获取高质量标签构成挑战。因此,学习使用不完美但成本较低的标签具有实际意义。
众包平台依赖非专家工作者,最近成为一种有吸引力的替代方案。未标记的实例通常被分配给知识水平不同的工作者,由于他们的专业知识有限,他们经常难以从多个模糊类别中识别出确切的标签。因此,众包平台自然允许工作者在不确定实例时选择几个可能的标签。这样,一个实例就与一组候选标签相关联,其中固定但未知的候选标签是真实标签。一个实例的候选标签集被称为部分标签(Partial Label, PL),能够处理PLs的学习范式被称为部分标签学习(Partial-Label Learning, PLL)[8], [12], [18], [41], [42], [51], [61], [62], [66], [68], [74],也称为模糊标签学习[9], [10], [22], [67]和超集学习[27], [36], [37]。PLL试图通过拟合PLs推断最优的多类分类器,该分类器能够准确预测未见实例的真实标签,更理想的情况是,假设可以由DNNs建模。PLL问题在现实世界场景中也会出现[36], [40], [70]。
研究PLL大约有20年的历史。最初,Jin和Ghahramani [30]提出了一个最大似然模型,用于迭代地重新分配候选标签的类后验概率到最有可能的真实标签。这一工作开启了PLL研究的主要途径,即在训练过程中即时净化每个PL以选择最有可能的真实标签,这种方法被称为基于识别的策略(Identification-based Strategy, IBS)。因为IBS旨在消除训练阶段中个体实例与其真实标签之间的歧义[74],所以这种技术也通常被称为消歧[12], [30]。相反,Hüllermeier和Beringer [26]将PLL形式化为一个协作问题,其中所有候选标签平等地贡献于学习目标。这种方案被称为基于平均的策略(Average-based Strategy, ABS)[12], [73]。
近年来,PLL的研究主要集中在IBS上,因为人们认为IBS的性能更有希望,而对ABS的关注较少。特别是在深度学习时代,对ABS的悲观看法来自于过度参数化的DNNs的“记忆”能力,即完全拟合的DNNs可以记忆所有训练样本,即使它们的标签是完全任意的[15], [71]。ABS在训练期间不识别潜在的真实标签,因此可能会记忆所有候选标签。这导致PLL问题退化为一个多标签问题,其中任意候选标签都可以被接受为“伪真实标签”。这引发了对ABS在真实标签预测中的有效性的质疑。
在本文中,我们通过展示ABS的实际潜力和理论优越性,质疑ABS的传统观点,并推动PLL作为一个整体向前发展。
我们的工作受到一系列探索性实验的启发。我们提出了一系列名为平均部分标签(Average Partial-Label, APL)损失的损失函数族,这些损失被定义为所有候选标签上的多类损失的平均值。类别交叉熵(Categorical Cross Entropy, CCE)损失是当前深度学习中最流行的多类损失,我们观察到所有现有的深度IBS方法[18], [41], [61], [67]也采用了CCE损失。因此,首先我们在基准数据集上使用APL损失配备CCE损失训练了几个标准的深度模型,其中真实标签被手动腐蚀为PLs。我们发现,与之前的认知相反,我们的ABS方法在使用CCE损失时性能不佳。然而,当我们将CCE损失替换为广义交叉熵(Generalized Cross Entropy, GCE)损失[76],并采用了早期停止[49]的实验时,我们观察到ABS方法可以与最先进的IBS方法PRODEN[41]相媲美,甚至超越,无论数据集、模型和优化器如何。这些观察结果挑战了普遍的信念,因为人们会期望ABS无法区分真实标签,从而损害泛化能力,而结果显示ABS方法使用APL损失也可以预测真实标签。因此,我们希望分析是什么区分了表现良好的ABS方法和那些表现不佳的方法,这个问题的答案希望能帮助改进ABS。
尽管PLL研究一直集中在IBS上,因为人们认为IBS的性能更有希望,但对ABS的关注较少。特别是在深度学习时代,对ABS的悲观看法来自于过度参数化的DNNs的“记忆”能力,即完全拟合的DNNs可以记忆所有训练样本,即使它们的标签是完全任意的[15], [71]。ABS在训练期间不识别潜在的真实标签,因此可能会记忆所有候选标签。这导致PLL问题退化为一个多标签问题,其中任意候选标签都可以被接受为“伪真实标签”。这引发了对ABS在真实标签预测中的有效性的质疑。
在本文中,我们通过展示ABS的实际潜力和理论优越性,质疑ABS的传统观点,并推动PLL作为一个整体向前发展。
我们的工作受到一系列探索性实验的启发。我们提出了一系列名为平均部分标签(Average Partial-Label, APL)损失的损失函数族,这些损失被定义为所有候选标签上的多类损失的平均值。类别交叉熵(Categorical Cross Entropy, CCE)损失是当前深度学习中最流行的多类损失,我们观察到所有现有的深度IBS方法[18], [41], [61], [67]也采用了CCE损失。因此,首先我们在基准数据集上使用APL损失配备CCE损失训练了几个标准的深度模型,其中真实标签被手动腐蚀为PLs。我们发现,与之前的认知相反,我们的ABS方法在使用CCE损失时性能不佳。然而,当我们将CCE损失替换为广义交叉熵(Generalized Cross Entropy, GCE)损失[76],并采用了早期停止[49]的实验时,我们观察到ABS方法可以与最先进的IBS方法PRODEN[41]相媲美,甚至超越,无论数据集、模型和优化器如何。这些观察结果挑战了普遍的信念,因为人们会期望ABS无法区分真实标签,从而损害泛化能力,而结果显示ABS方法使用APL损失也可以预测真实标签。因此,我们希望分析是什么区分了表现良好的ABS方法和那些表现不佳的方法,这个问题的答案希望能帮助改进ABS。

642a79a8f634cc03c2db803ab303735d.png

我们的理论分析进一步深入到ABS方法对PLs的稳健性,即,是否最小化相对于APL损失的风险的分类器在监督数据上的分类误差接近贝叶斯分类器(使用监督数据学习得到)的分类误差[20], [21], [44], [46]。得益于APL损失的简洁形式,我们可以轻松地从PLs估计风险并执行经验风险最小化(ERM)。因此,我们可以通过现有的数学技术来分析稳健性。此外,我们更进一步——考虑不可靠的PLL,即从可能不包含真实标签的噪声PLs中学习。随着训练数据获取范围的扩大,噪声是不可避免的,因此,在现实世界的应用中,不可靠的PLL是迫在眉睫的。不幸的是,以前的PLL算法只关注无噪声的PLs,并且未能很好地处理不可靠的PLL,如图1所示的两个最右列。为了避免混淆,我们将传统的PLL范式称为可靠的PLL,将可靠的PLL和不可靠的PLL统称为“PLL”,并将无噪声的PL和噪声PL统称为“PL”。为了理论分析ABS方法的成功或失败的原因,我们为PLs的生成过程形式化了两个问题设置,每个问题设置都有几个具体实例,它们在概念方法上有很大的不同。借助这些,我们深入研究了多个广泛使用的多类损失函数,并正式证明了具有有界损失函数(例如,GCE)的APL损失在轻度假设下总是稳健的,而具有无界损失函数(例如,CCE)的APL损失可能不是稳健的。这些理论结果与图1中的实验观察相吻合。鉴于目前还没有对IBS进行这样的分析,我们的稳健性分析不仅对ABS是新颖的,而且对PLL也是新颖的。
此外,我们重新思考了现有的深度IBS方法。我们指出,所有现代IBS方法在训练开始时表现得像ABS,以准备PL纯化和真实标签选择。换句话说,它们需要使用ABS来预热模型训练,并使用预训练的模型来识别真实标签。因此,如果ABS能够变得更好,它们将选择正确的真实标签,而迄今为止它们在训练过程中一直使用无界损失。因此,IBS方法可以通过我们对ABS的研究来提高自己:我们建议在最初的几个周期中使用有界损失作为预热。我们进行了广泛的实验来验证这种改进的有效性。
我们的贡献可以总结如下:

  • 我们为ABS建立了一个理论上合理的框架,基于一个简单而有效的APL损失家族,其风险最小化在两种数据生成过程的问题设置下都是稳健的。

  • 据我们所知,我们是第一个提出不可靠的PLL范式的人,进一步发展了PLL在社会中的实践潜力。我们的ABS方法与APL损失为不可靠的PLL提供了一个有效的基线,并且它对可靠的PLL也同样有效,无需任何修改。

  • 我们重新引起了PLL社区对ABS的关注。我们的研究发现不仅可以改进ABS,而且可以启发将ABS整合到IBS方法中的一般原则,以进一步提高其性能,并推动PLL作为一个整体向前发展。
    论文的其余部分组织如下:我们在第二节回顾了相关工作,并讨论了ABS和IBS背后的哲学。在第三节,我们给出了问题设置的概述,并介绍了稳健性分析的重要性。在第四节,我们提出了APL损失,并形式化了PLs的生成过程。我们在第五节和第六节分别展示了我们的主要理论结果和实验发现。我们在第七节总结,并将在附录中提供额外的实验结果和所有证明,附录可在线获取。

III. 准备工作

在本节中,我们正式介绍可靠的部分标签学习(Reliable Partial-Label Learning, PLL)并提出不可靠的PLL,同时给出稳健性的定义。

A. 问题设置

基本设置。让我们考虑一个具有k个类别的多类分类问题。设 为特征空间, 为标签空间, 为部分标签空间。 表示 的所有子集的集合, ,因为空集和整个标签集被排除在外。我们用 表示“干净”分布 上的概率密度。在完全监督分类中,目标是一个学习模型(例如,一个DNN) ,它可以在未见过的输入上做出正确的预测,有一组从 中独立同分布(i.i.d.)采样的监督训练数据 。一个分类器 f(x)通常假设具有以下形式:

其中 为类别 的得分。在本文中,我们专注于深度学习:假设学习模型 是一个DNN,并应用softmax操作将得分转换为类别后验概率的向量,即 ,其中 表示 维的单纯形。
而在PLL中,对于具有概率密度 的干净分布,我们观察到的是来自 的腐蚀版本的i.i.d. PL训练数据 在 上的分布 。分布 是这样的,实例的边际分布 保持不变,但观察到的标签被腐蚀为一个模糊的候选标签集。PLL试图通过拟合 来学习最优分类器。
在可靠的PLL中的关键假设是PLs是无噪声的,这意味着一个实例 的潜在真实标签 总是包含在其候选标签集 中,即 , , 。
我们认为这个假设相当严格,因为干净分布的概率密度 是不可知的。例如,大规模数据集的注释通常需要在众包平台上由分布式工作人员完成。要求众包工作人员仔细判断每个类别以确保必须选择正确的一个,这部分违背了减少标记成本的初衷,而且由于知识有限,工作人员无法准确注释任务,即使结合了多个工作人员提供的标签,也无法保证100%的准确性。另一个生动的例子是医学诊断。对于医生来说,在单一检查的基础上对具有挑战性的病例做出确切的判断是非平凡的。相反,给出几种怀疑的疾病,并将患者转诊接受其他测试基于这些怀疑是不那么严格的。然而,由于高内部和观察者间变异性[23],一些复杂的疾病不太明显,通常难以检测,即使是专家也是如此,导致不可靠的候选标签。随着训练数据获取的扩大,标签信息被腐蚀是普遍现象,但不幸的是,这在以前的PLL工作中从未被考虑过。因此,我们引入了一个更一般的数据设置,称为不可靠的PLL:
定义1(不可靠的PLL). 给定联合密度 及其边际密度 ,对于任何从 中独立采样的噪声PL数据 ,其真实标签 有 的概率不包含在候选标签集 中,即 , , ,其中 被称为不可靠率。从不可靠的PL数据中学习被称为不可靠的PLL。

B. 稳健性

在完全监督学习中,关于多类损失 的 -风险定义如下:

这里 表示期望,其下标指示了期望所采取的分布。贝叶斯最优分类器,它最小化 ,由 给出,其中最优性定义在所有可测量函数上。我们用 表示在干净分布下的相应贝叶斯风险。通常, 是分类校准的 [4],即 的全局最小化解与 的全局最小化解相同,这可以解释为通过控制 -风险的过量风险来控制 0-1 风险的过量 [50]。
我们记 为适用于 PLs 的适当修改的 (在第 IV-A 节中定义)。同样,关于 PLL 损失 在 下的 PLL 风险定义为

PLL 的目标是预测未见实例的真实标签。然而,大多数标准学习方法很难在这种情况下表现良好,因为它们倾向于在这些场景中对候选标签过度拟合 [41]。
从目标函数的角度构建稳健损失是在弱监督学习中的一种强有力的手段 [21], [44], [46]。其重点是为稳健损失提供理论保证,以便基于弱监督学习得到的分类器接近贝叶斯最优分类器。具体来说,如果损失 保证了最优 PLL 分类器 收敛到贝叶斯最优分类器,则称损失 对 PLs 稳健(更具体地说,关于 的风险最小化对 PLs 渐近稳健)。
定义 2(PL-稳健性). 如果对于任何 , 是有界的,则我们称损失 对 PL 数据稳健(PL-稳健)。 有界意味着从 PL 数据中学到的 在监督数据上的分类误差与 类似,即最小化 得到一个近似解,该解最小化了 。稳健性的保证因此在 PLL 中建立了类似于校准理论 [4] 的理论。设 。然后,稳健性条件通常可以重写为 是有界的,这稍微弱一些,因为它只意味着 是 的近似最小化解,但不保证 在监督数据上的分类性能。
在统计学习理论中,一致性 [48] 是另一个重要概念。我们使用上标 ⋆ 来表示给定假设类 上的最优解,即 , 。假设 是 PLL 经验风险最小化器。关于 的 的质量通过估计误差来衡量:

如果当 时,有 ,我们称 PLL 是一致的。根据具有界范数的适当 DNN,假设空间 足够复杂以包含贝叶斯最优分类器,我们有 , 。由于这一点,稳健性和一致性的概念在深度学习中可以很好地联系起来:(1) 中的 RHS2 只是稳健性度量。因此,一致性是稳健性的一个充分但不必要的条件。尽管稳健性是一致性的一个较弱属性,它的优势在于不需要为每个特定的数据生成过程设计一个专门的损失函数,这通常是一致性方法所必需的。总之,稳健性是监督学习中的一个共同和关键的理论保证,但在 PLL 中实现稳健性的机制仍然鲜为人知。据我们所知,这是第一项分析 PLL 稳健性的工作。

Ⅳ. 方法

在本节中,我们提出了一系列用于部分标签(Partial Labels, PLs)的平均部分标签(Average Partial Label, APL)损失函数,并介绍了部分标签的生成过程。

A. 平均部分标签(APL)损失函数族

本文提出了一系列名为平均部分标签(APL)损失函数的损失函数族,遵循基于原则的ABS方法:

其中 表示集合的基数。我们的学习公式建立在一个简单的方案上,该方案结合了对每个候选标签的多个多类损失。例如,我们可以使用GCE或CCE损失作为组件 。如果 是单例,APL损失将简化为普通的多类损失。APL损失的思想来自于Feng等人[18]提出的一种实际激励过程:他们假设给定特定真实标签的候选标签集是独立且均匀抽取的,即如果 ,则 。然后我们可以将后验概率替换为损失,并得到APL损失的公式,其中的归一化项 打破了对具有更多候选标签的训练数据的偏见。APL损失鼓励在候选标签上输出更大的结果,同时并不显式保证真实标签具有最大的得分。理想情况下,一个“好的”损失 可以通过归纳偏差隐式地提高真实标签的输出,而一个“坏的”损失则会导致无法消除歧义。因此,现在的问题是哪些多类损失函数可以限制 (或 ),即使我们的APL损失对PL数据具有鲁棒性。
让我们给出一个激励性的例子。如果 { } 是实例 的两个候选标签,而 是真实标签。那么在该样本上的APL损失是 。我们希望增加 使其接近1,这样 就会减少,表示 成功记住了真实标签而不受 的干扰。自相矛盾的是,由于所有候选标签都有助于最小化 ,既不应使 过大,也不应使 过大。直观上,如果 有上界,则即使 接近0, 的值也是可以接受的。但如果情况并非如此,优化算法必须保持 不会太小,以确保 不会太小,然后对真实标签的记忆就会受到阻碍。第I节中的实验观察也证实了这一推断。
我们研究了一系列非负多类损失函数,并证明了在第V节中,具有有界多类损失函数的APL损失对(无噪声和有噪声的)PL数据都是鲁棒的。
定义3. 我们称一个多类损失函数是有界的,如果对于任何分类器 和输入 ,所有类别的损失之和被某些常数 和 所限制:

特别地,如果 ,即 ,损失函数被称为对称的。我们应该指出,有界损失函数在任何类别上的损失也是有界的: ,对于所有 ,其中 是一个常数。我们检查了广泛使用的损失函数,并在表I中列出了它们的界限。

b7cec4142d2df72c005923cbfb118a91.png

我们使用独热表示(one-hot representation)为每个标签,即如果标签 ,其标签向量被表示为 ,其中第 个元素由 如果 ,否则为0给出。然后对于对称损失, ,对于所有 。

B. 数据生成过程

为了提供主要的见解,我们必须对数据生成过程提出一些假设。在以下部分中,我们正式建立了两个一般性的问题设置,用于生成无噪声PL和有噪声PL,并且对于每个问题设置,我们进一步提出了几个特定的实例,这些实例在它们的概念方法上有显著的不同。我们遵循先前可靠的PLL工作中的假设[18]、[36]、[61],以及用于表示标签噪声的经典特征独立模型[24]、[45]、[50]、[53]、[64],即观测值在给定真实标签的条件下与输入条件独立,因此有 , 。然后,损坏的分布密度被公式化为 。
1)无噪声PL的过滤抽样过程:在涉及PLL生成过程的开创性研究中,假设给定特定真实标签的情况下,PL是独立且均匀地抽取的。我们推广了均匀抽样假设,并提出了过滤抽样过程。正式地说,给定一个特定的真实标签,假设一个无噪声的PL是作为一个整体抽样的:

其中 是给定真实标签 时标签集 的抽样概率,且 。
这个过程可以写成转移矩阵的形式[24]。我们列举了PL空间 中的所有标签集 并为每个集合指定一个索引 ( ) 。通过这种表示,我们将所有概率总结为一个PL转移矩阵 ,其中 。进一步考虑到假设数据分布在(4)中,我们可以实例化 为 如果 ,否则 。
然后对于所有 ,有 。因此我们有

其中 表示转置。
翻转模型。然而,在现实世界中,类别之间的相关性复杂且多变,使得一些相似的类别混合在一起是常见的,以至于一些标签组合的出现频率比其他组合更高。我们因此提出了翻转模型,其中假设通过独立地向候选标签集合中添加每个标签来生成无噪声的PL:

其中 ,对于所有 , 。 是描述给定特定类别标签 时,错误标签 被包含在候选标签集合 中的翻转概率,且 。对于 ,满足 。 通过重新抽样排除了其基数等于 的集合。
类似地,PL转移矩阵可以被制定为 ,其中 ,并且 的对角线元素都是1。如果 是一个 维向量,其中第 个元素 是概率 ,那么

2) 有噪声PL的全局抽样过程:作为一种提醒,抽样过程涉及对不符合的标签集进行手动过滤和随后的重新抽样,这为人类注释者的错误留下了潜在的有噪声PL的空间。因此,PL空间中的所有元素都具有非零概率被抽样:

其中 。如果所有无噪声PL的抽样概率为 ,并且所有有噪声PL的抽样概率等于 ,则抽样概率在全局抽样过程中被认为是均匀的。此外,密度 采用与(5)相同的形式,即使 , 也可能大于0。
接下来我们讨论全局抽样过程的两个特定生成模式,即真实类别被另一个类似类别混淆,或者无噪声PL被故意破坏的情况。
混淆模型。在这种类型的设置中,真实类别被(偶然地)与其他(相似的)类别混淆,导致在PL生成过程中错误地使用了不正确的标签作为原始真实标签。因此,混淆模型由两个步骤组成。首先,真实标签被腐蚀。假设应用了类别条件标签噪声(CCN)模型[24]、[45]、[50]、[53]、[64]——这是用于噪声标签分类的最广泛使用的模型,其中来自类别 的每个实例都有固定的概率被分配到标签 ,即

其中 是标签噪声率。如果 和 ,则噪声被称为均匀的;否则,它被称为不对称的。腐蚀步骤可以通过噪声转移矩阵 [53] 来形式化,其中 。其次,被腐蚀的标签 作为真实标签 来生成候选标签,这意味着我们需要有噪声的PL包含 ,就像无噪声的PL必须包含 一样。因此,以下等式成立:

其中 可以扩展为(4)或(6)的形式。
破坏模型。我们认为无噪声PL也可以被(有意地)破坏。例如,可能存在垃圾邮件发送者,他们故意选择与任务完全无关的标签集。因此,我们提出了破坏模型,它也包含两个步骤。首先,通过过滤抽样过程生成无噪声PL,然后通过集合翻转率 取其补集:

其中 。构建补集转移矩阵 ,其中 如果第 和第 个标签集是互补的, 对于所有 ,否则 。然后基于(5)或(7)的PL分布密度函数 乘以 。与无噪声场景类似,全局抽样过程为所有PL的抽样可能性提供了全面的描述,而混淆模型和破坏模型作为全局抽样过程的特定实例,主要集中于阐明用于腐蚀真实标签和生成PL的技术和方法。

V. 理论结果

在本节中,我们详细讨论了在不同场景下,多类损失函数使得部分标签学习(Partial-Label Learning, PLL)与平均部分标签(Average Partial Label, APL)损失函数鲁棒的条件,并得出了一些有益的发现。

A. 对无噪声部分标签的鲁棒性

引理1. 任何对称损失满足 ,并且任何有界损失满足 ,其中

并且 是类似的,但在分母中使用 。
定理1. 在过滤抽样过程下,假设 并且 ,则

  1. 对于任何对称损失, ;

  2. 对于任何有界损失, ,其中

我们引入了两个量, 是在 下 的加权和的期望, 是在 下 的加权和的期望。定理1建立了在某些条件下,有界损失函数的PLL风险接近有界损失函数的最小PLL风险。有界损失的界限越紧,APL损失的鲁棒性越好,极端情况是由对称损失实现的,它导致统计一致性(参见第III-B节)。PL-鲁棒性的关键条件涉及抽样概率。由于 ,条件 意味着任何非真实标签可能不一定包含在候选标签集中,即真实标签的主导性。另一个约束, ,意味着如果多类损失 是分类校准的,则在完全监督分类中类别是可分离的。请注意,即使不满足此约束,有界损失仍然展现出良好的经验PL-鲁棒性。在引理1中,统一的抽样概率已经确保了真实标签的主导性,并且去除了可分离性约束 ,这意味着即使在随机场景中,使用APL损失的学习也可以是PL-鲁棒的。因此,在这种情况下,鲁棒性在没有任何约束的情况下得到满足。此外,过度的0-1风险是有界的,这表明最优PLL分类器接近贝叶斯分类器,因此更好地保证了PL-鲁棒性。
此外,如果我们考虑类别之间的共享信息,并利用翻转模型来形式化生成过程,我们可以得到以下PL-鲁棒性条件。
推论2. 在翻转模型下,假设 ,则

  1. 对于任何对称损失, ;

  2. 对于任何有界损失, ,其中 是与 相关的常数。
    如果 ,则对于任何对称损失, ;对于任何有界损失, ,其中

与定理1相比,推论2中的条件和风险差上的上界在符号上不同,但在概念上相似。值得注意的是,由于PL转移矩阵的对角优势,翻转概率没有受到约束,这确保了真实标签的普遍性。

B. 对有噪声部分标签的鲁棒性

在本节中,我们为全局抽样过程提出了正式的声明,并为有噪声PL的具体模型提供了直观的声明,如推论4所述,更正式的数学细节将在在线附录A中给出。引理2. 任何对称损失满足 ,并且任何有界损失满足 ,其中

并且 是类似的,但在分母中使用 ,这是在全局抽样过程下,如果标签噪声率 且抽样概率是均匀的情况下。
定理3. 在全局抽样过程下,假设 并且支配关系成立:对于所有 , ,其中 定义为

  1. 对于任何对称损失, ;

  2. 对于任何有界损失, 。
    在定理3中,支配关系意味着在 下,真实标签与实例相关联的概率的加权和的期望,比任何错误标签 的加权和的期望要大。与无噪声PL相比,对有噪声PL的鲁棒性的条件加强了对支配关系的约束,从概率的和变为加权概率的和。然而,在统一抽样概率的情况下,约束是相对宽松的:输出无噪声PL的概率超过50%,仅需要略多于完全随机标签系统的领域知识。为了涵盖各种情况,我们在下面的推论中总结了混淆模型和破坏模型,然后详细讨论每个模型。
    推论4. 对于混淆模型或破坏模型,假设 并且支配关系成立:在 下,真实标签与实例相关联的概率的加权和的期望总是大于任何错误标签 的加权和的期望,则

  3. 对于任何对称损失, ;

  4. 对于任何有界损失, , 其中 是与 相关的常数。
    对于混淆模型,我们假设在生成候选标签时情况是均匀的,以简化过程。这种简化将支配关系退化为 ,对于所有 ,我们有点惊讶地发现,它变得与对抗非对称噪声的条件([20]中的定理3)相同。进一步假设真实标签被均匀地腐蚀,我们有 。这与在均匀噪声下对抗噪声的条件([20]中的定理1)相同。这些发现表明,只要候选标签是均匀生成的,对有噪声PL的鲁棒性条件就完全由标签噪声率决定。此外,约束 被去除了,且 是有界的。
    接下来,我们通过类似的推理探讨破坏模型。假设在生成候选标签时情况是均匀的,支配关系简化为 ,对于所有 。如果破坏每个候选标签集的概率也是均匀的,那么集合翻转率也是不可靠性率,即 ,对于所有 。那么,我们再次展示了PL-鲁棒性条件仅依赖于候选标签集中的不可靠性水平。

备注. 我们对PL数据下APL损失的理论分析揭示了实现PL-鲁棒性的几个关键条件。我们现在对所有定理做出几个观察:

  • 使APL损失对PL数据具有鲁棒性的关键因素在所有场景中是一致的:与实例相关联的真实标签的加权概率之和占主导地位;

  • 对于有噪声PL数据,如果候选标签是均匀生成的,鲁棒性条件完全由不可靠性率决定;

  • 在均匀情况下,相对于干净分布的最优PLL分类器的过度0-1风险可以正比于损失函数的上界和下界之差 上界。差异越小,过度风险的上界越小,意味着APL损失更鲁棒,最理想的情况(统计一致性)可以通过对称损失实现。其比例常数随着错误标签的概率增加而增加,符合更高随机性使学习更困难的直觉;

  • 在更一般的情况下,当使用有界损失学习时,我们只能限制在损坏分布下的过度 -风险,其上界,减去一个小于1的常数,等于 。
    上述理论发现为ABS损失的设计提供了指导。请注意,IBS是启发式的,并不是真正的基于ERM的(参见第VI-C节),因此很难证明IBS的鲁棒性。

C. 估计误差界限

让我们再次审视鲁棒性与一致性之间的关系。现在我们已经证明了在(1)中限制RHS2的条件(假设F被实例化为DNN)。然后我们建立了估计误差界限,并展示了随着训练数据量的增加,RHS1也是有界的。假设存在函数类 以及 ,并且存在常数 和 使得对于所有 和 ,我们有

和

并且假设对于所有 , 是 -Lipschitz 连续的。在概率分布 下, 的Rademacher复杂度,以样本大小 定义,为 [5], [48]。然后我们有以下的估计误差界限。
定理 5. 对于任何 ,我们至少有 的概率,

随着 ,对于所有具有有界范数的参数化模型,例如使用权重衰减训练的深度神经网络(DNNs), ,这标志着 。

VI. 实验发现

在本节中,我们提供了一些关于我们的ABS方法的经验理解,通过在基准数据集上验证我们对PL数据的鲁棒性的理论发现,这些发现随后启发了对IBS方法的改进。实现基于PyTorch [52],实验在NVIDIA Tesla V100 GPU上进行。

A. 对APL损失的经验理解

我们的ABS方法与有界损失函数一起使用是鲁棒的。我们首先在MNIST [34]和CIFAR-10 [32]上运行一组实验,以验证我们的ABS方法与有界损失是否对无噪声PL和有噪声PL都具有鲁棒性,而与无界损失则不是。我们通过翻转模型生成无噪声PL,统一翻转概率为0.1,然后通过混淆模型生成有噪声PL,其中标签噪声率等于0.3。在每个数据集上,我们训练了两个网络,使用不同的多类损失的APL损失,例如表I中的有界与无界损失。RCE损失,除了比例常数外,等同于MAE损失,因此省略。我们将FL损失的聚焦参数设置为0.5。详细设置在第VI-B节中。

66ed31fe85d0148c8ffa46489ae06698.png

不同损失下的测试准确率如图2所示。正如我们理论上证明的,使用有界损失的学习是鲁棒的:在测试准确率达到峰值后,它们的测试准确率在整个训练过程中相对平坦。然而,无界损失在大多数情况下表现出显著的过拟合。具体来说,对称损失MAE的曲线最平滑,而其他有界损失在困难的学习场景中可能会略微过拟合。相同的结果在不同的数据集、不同的数据设置、不同的模型下显示。一般来说,学习场景越困难(例如,更难的数据集和较弱的监督信息),有界损失和无界损失之间的差距就越大,因为无界损失的过拟合更严重。当使用APL损失训练时,模型如何拟合候选标签?由于我们已经讨论过,ABS方法在训练期间不明确区分真实标签。人们可能会想知道ABS方法是如何从PL数据中学习的。这引发了一个问题:学习到的模型能否识别训练样本的真实标签?我们通过查看模型对真实标签的输出与对其他标签的最大输出之间的置信度边界来调查这个问题,即 。边界越大,模型成功识别训练样本的真实标签的可能性就越大。在图3中,我们展示了训练集上的平均置信度边界。

d661cafbf73959f94a5f9f4fe1fe68bd.png

我们发现,用有界损失训练的边界通常比用无界损失训练的边界要大得多。这意味着,尽管我们的ABS方法在训练阶段不明确区分候选标签集,但我们的ABS方法与有界损失仍然能够鲁棒地拟合真实标签,抵御其他候选项的干扰,从而解释了在测试集中的良好预测性能。

B. 在基准数据集上的评估

设置。实验在四个广泛使用的基准数据集上进行,包括MNIST、Fashion-MNIST [65]、Kuzushiji-MNIST [11]和CIFAR-10。在每个数据集上,我们通过(Case 1)过滤抽样过程,统一抽样概率生成PL;(Case 2)翻转模型,统一翻转概率为0.1;(Case 3)混淆模型,其中标签噪声率等于0.3,候选标签根据Case 2生成;(Case 4)破坏模型,其中候选标签根据Case 1生成,集合翻转率为0.3。我们留出了10%的损坏训练样本作为验证集,用于模型选择。有关不同参数的生成过程的更多实验,可以在在线附录C中找到。我们采用了各种基础模型,包括线性输入模型(Linear)、5层感知器(MLP)和12层卷积神经网络(ConvNet)[25]。在线性数据集上训练Linear,在CIFAR-10上训练ConvNet,而在所有数据集上训练MLP。优化器是带有动量0.9的随机梯度下降。我们训练每个模型500个周期,将小批量大小设置为256,并记录了具有最佳验证准确率的超参数(学习率和权重衰减)的测试准确率。我们没有使用任何手动学习率衰减和早停。
结果。表II显示了5次试验的测试准确率。

65fbd458f3ecc6c757bf88a7237100e0.png

基于配对t检验,在5%的显著性水平上,最佳和可比较的方法用粗体突出显示。我们可以看到,有界损失总是优于无界损失,特别是在复杂模型上。在困难的场景中,即不可靠的PLL,用有界损失训练的复杂模型的准确性几乎总是比它们的线性对应物更好,但无界损失可能使复杂模型在某些任务上过拟合非常严重,导致其性能变得更糟。

C. 用ABS增强IBS方法

我们重新审视了最先进的IBS方法PRODEN [41],RC [18]和LW [61]。它们的典型学习目标如下:

其中 是标签 的权重。更可能为真实的标签的权重逐渐增加。一般来说,它们将权重初始化为 。
他们在几个周期内用均匀权重训练学习模型 以进行预热启动,然后在剩余的周期内无缝更新权重 和模型 。我们强调均匀权重是必要的,以打破权重 和模型 之间存在的循环依赖关系: 需要用合理的 进行训练,而 需要由训练良好的 估计。算法的成功建立在这样一个观察之上:即使每个样本有多个候选标签, 也会首先记住真实的标签 [3]。因此,它们通过 的输出调整 。这表明IBS方法必须以ABS的方式进行预训练。
虽然我们注意到它们在ABS风格的阶段和随后的IBS风格的阶段总是使用CCE损失,这可能在最开始选择错误的真正标签,并对模型训练产生负面影响。因此,我们引入了一个增强原则,将我们的理论发现融入现有的IBS方法中:用鲁棒的预热启动训练学习模型以避免过拟合。我们将前20个周期的损失函数替换为带有MAE的APL损失,然后切换回它们原始的目标函数。超参数根据原始方法进行调整。
我们考虑了CIFAR-10的Case 1、2、3和4,以及CIFAR-100的Case 2、3和4,其中候选标签由具有统一翻转概率0.01的翻转模型生成。我们使用了与第VI-B节相同的训练/验证设置、模型和优化器。我们在表III中总结了PRODEN有无早期停止的结果,这意味着我们报告了训练期间达到最佳验证准确率的最后一个周期或周期。RC和LW的结果放在在线附录C中。

9c3535dcc3fad95ffaa5605c002206d2.png

从表III可以看出,具有鲁棒预热启动的增强方法比原始版本有显著的性能提升。当不使用早期停止时,模型的性能更好,这表明鲁棒预热启动有助于在早期阶段不记住错误的标签。即使在使用早期停止后,我们的增强版本也允许进一步的性能提升。此外,我们在最后一列展示了我们的ABS方法与早期停止的结果。它通常与最高准确率相当,意味着我们的提议是不稳定PLL的一个简单而有效的基线。CIFAR-10上的结果也在图1中显示。

VII. 结论

在本文中,我们重新思考了深度学习时代被遗忘的ABS方法,并从理论和实践上对其进行了改进。理论上,我们提出了两个问题设置,结合不同的数据生成模型来处理无噪声和有噪声的部分标签(PLs),并分析了ABS对PLs具有鲁棒性的条件,填补了PLL鲁棒性分析的理论空白。在实践中,我们进行了广泛的实验来验证我们的理论发现,并展示了如何通过我们的工作改进IBS方法,从而推动了PLL整体的发展。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准备。
本文信息旨在传播和交流学术,其内容由作者负责,不代表本号观点。文中内容如涉及作品文字。图片等内容、版权和其他问题,请及时与我们联系,我们将在第一时间删文处理。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值