目录
原文
翻译
Abstract
真实世界的数据往往表现出严重的类不平衡的长尾分布,这对深度识别模型提出了巨大的挑战。
在不平衡学习的背景下,我们发现了标签价值的一个持续的困境:
一方面,来自标签的监督通常比无监督的监督导致更好的结果;
另一方面,严重不平衡的数据自然会在分类器中产生“标签偏差”,在分类器中,决策边界可以被大多数类别彻底改变。
类不平衡学习在半监督和自我监督两方面都能显著受益。
积极的,不平衡标签是有价值的:给定更多的未标记数据,原始标签可以利用额外的数据以半监督的方式减少标签偏差,这大大提高了最终的分类器
消极的是,我们认为不平衡标签并不总是有用的:首先以自我监督的方式预先训练的分类器始终优于相应的基线。
1 Introduction
不平衡数据在现实世界中普遍存在,大规模数据集通常显示长尾标签分布[1,5,24,33]。
特别是,对于与安全或健康相关的关键应用程序,如自动驾驶和医疗诊断,这些数据在本质上是严重不平衡的。这给现代深度学习框架[2,5,10,20,53]提出了一个重大挑战,即使使用专门的技术,如数据重采样方法[2,5,41]或类平衡损失[7,13,26],在极端的类不平衡下,性能仍然显著下降。
为了进一步应对这一挑战,了解类不平衡学习所产生的不同特征是至关重要的。然而,不同于平衡的数据,标签不平衡学习的背景下发挥令人惊讶的有争议的角色,这导致一个持久的困境标签的价值:
(1)一方面,使用标签监督学习算法通常比无监督算法得到更准确的分类器,显示了标签的正值
(2)另一方面,不平衡的标签在学习过程中自然会造成“标签偏差”,其中决策边界可以由大多数类别显著驱动,显示了标签的负面影响。它们可以分别被有效地利用,以半监督和自我监督的方式,以显著提高最先进的水平。
从积极的观点来看,我们认为不平衡的标签确实很有价值。理论上,通过一个简单的高斯模型,我们证明了额外的未标记数据有利于不平衡学习:我们获得了一个高概率的接近估计,在未标记数据的数量呈指数增加,即使未标记数据也(高度)不平衡。
通过利用标签信息,通过使用一个简单的伪标签策略,可以大大改进类不平衡学习,这以半监督的方式减轻了额外数据的标签偏差。无论标记数据和未标记数据的性能如何,在不同的基准中始终建立了优越的性能,这意味着来自不平衡标签的有价值的监督,从而导致显著更好的分类器。
在消极的观点上,我们证明不平衡标签并不是有利的。理论上,通过高维高斯模型,我们证明,如果给定的信息表示学习不使用标签,高概率依赖于平衡,我们得到具有指数小误差概率的分类器,而原始分类器总是具有恒定的误差。
在此基础上,我们通过经验验证,通过在一开始就放弃标签,首先以自我监督的方式预先训练的分类器始终优于其相应的基线,无论设置和基础训练技术如何。对大规模数据集的显著改进表明,有偏差的标签信息可以通过自然的自我监督得到极大的补偿。
贡献:
(i)我们首先通过不平衡标签的两个方面系统地分析不平衡学习,验证并利用其在新的半监督和自我监督方式中的价值。
(ii)我们从理论和经验上证明,使用未标记的数据可以通过半监督策略大大促进不平衡学习。
(iii)此外,我们在不使用任何额外数据的情况下,引入了类不平衡学习的自我监督预训练,在大规模的不平衡基准上展示了吸引人的理论解释和新的最新技术。
2 Imbalanced Learning with Unlabeled Data
我们考虑了额外的未标记数据可用的场景,因此,有限的标记信息是至关重要的。通过一个简单的理论模型,我们首先建立了关于原始不平衡数据和额外数据的不同成分如何影响整体学习过程的直觉。
使用未标记数据的不平衡学习
###2.1 Theoretical Motivation理论动机
考虑一个二元分类问题,即数据生成分布
P
X
Y
P_{XY}
PXY是两个高斯分布的混合物。特别地,标签
Y
Y
Y要么是正的(+1),要么是负的(-1),且概率相等(即0.5)。在
Y
=
+
1
Y=+1
Y=+1,
X
∣
Y
=
+
1
∼
N
(
µ
1
,
σ
2
)
X|Y=+1∼\mathcal{N}(µ_1,σ^2)
X∣Y=+1∼N(µ1,σ2)和类似的,
X
∣
Y
=
−
1
∼
N
(
µ
2
,
σ
2
)
X|Y=−1∼\mathcal{N}(µ_2,σ^2)
X∣Y=−1∼N(µ2,σ2)上的条件。不失一般性,让
µ
1
>
µ
2
µ_1>µ_2
µ1>µ2。可以直接验证最优贝叶斯分类器是
f
(
x
)
=
s
i
g
n
(
x
−
µ
1
+
µ
2
2
)
f(x)=sign(x−\frac{µ_1+µ_2}2)
f(x)=sign(x−2µ1+µ2),即,如果
x
>
µ
1
+
µ
2
2
x>\frac{µ_1+µ_2}2
x>2µ1+µ2,则将
x
x
x分类为+1。因此,在下面,我们将衡量我们的学习能力
µ
1
+
µ
2
2
\frac{µ_1+µ_2}2
2µ1+µ2作为性能的代理。
假设给出了一个在不平衡的训练数据上进行训练的基础分类器 f B f_B fB。我们考虑了 P X Y P_{XY} PXY中额外的未标记数据 { X ˜ i } i n ˜ \{{\~{X}_i}\}_i^{\~{n}} {X˜i}in˜(可能也不平衡)可用的情况,并研究了这如何影响fB中的标签信息对我们的性能。准确地说,我们使用 f B f_B fB为 { X ˜ i } i n ˜ \{{\~{X}_i}\}_i^{\~{n}} {X˜i}in˜创建了伪标签。
设 { X ˜ i + } i = 1 n ˜ + \{{\~{X}_i^+}\}_{i=1}^{\~{n}_+} {X˜i+}i=1n˜+为未标记数据集,其伪标记为+1;同样,设 { X ˜ i − } i = 1 n ˜ − \{{\~{X}_i^-}\}_{i=1}^{\~{n}_-} {X˜i−}i=1n˜−为负集。自然地,当训练数据不平衡时, f B f_B fB很可能对不同的类别表现出不同的准确性。我们将其建模如下。考虑伪标签为+1的情况,让 { I i + } i = 1 n ˜ + \{{I_i^+}\}_{i=1}^{\~{n}_+} {Ii+}i=1n˜+作为第 i i i个伪标签正确的指标,即,如果 I i + = 1 I_i^+=1 Ii+=1,则为 X ˜ i + ∼ N ( µ 1 , σ 2 ) {\~{X}_i^+}∼\mathcal{N}(µ_1,σ^2) X˜i+∼N(µ1,σ2),否则为 X ˜ i + ∼ N ( µ 2 , σ 2 ) {\~X_i^+}∼\mathcal{N}(µ_2,σ^2) X˜i+∼N(µ2,σ2)。我们假设 I i + ∼ B e r n o u l l i ( p ) {I_i^+}∼Bernoulli(p) Ii+∼Bernoulli(p),这意味着 f B f_B fB对正类的精度为 p p p。类似地,我们定义 { I i − } i = 1 n ˜ − \{{I_i^-}\}_{i=1}^{\~{n}_-} {Ii−}i=1n˜−,即,如果 I i − = 1 I_i^-=1 Ii−=1,则 X ˜ i − ∼ N ( µ 2 , σ 2 ) {\~{X}_i^-}∼\mathcal{N}(µ_2,σ^2) X˜i−∼N(µ2,σ2),否则 X ˜ i − ∼ N ( µ 1 , σ 2 ) {\~{X}_i^-}∼\mathcal{N}(µ_1,σ^2) X˜i−∼N(µ1,σ2)。设 I i − ∼ B e r n o u l l i ( q ) {I_i^-}∼Bernoulli(q) Ii−∼Bernoulli(q),其中 f B f_B fB对负类的精度为 q q q。用 ∆ ≜ p − q ∆\triangleq{p−q} ∆≜p−q表示精度的不平衡。如前所述,我们的目标是通过额外的未标记数据,使用上述设置来学习 µ 1 + µ 2 2 \frac{µ_1+µ_2}2 2µ1+µ2。我们的估计自然被构造为 θ ^ = 1 2 ( ∑ i = 1 n ~ + X ~ i + / n ~ + + ∑ i = 1 n ~ − X ~ i − / n ~ − ) \hat{θ}=\frac12(\sum_{i=1}^{{\tilde n}_+}{\tilde X}_i^+/{\tilde n}_++\sum_{i=1}^{{\tilde n}_-}{\tilde X}_i^-/{\tilde n}_-) θ^=21(∑i=1n~+X~i+/n~++∑i=1n~−X~i−/n~−)
Theorem 1.
考虑上述设置,对于任何
δ
>
0
\delta>0
δ>0,至少有
1
−
2
e
−
2
δ
2
9
σ
2
.
n
~
+
n
~
−
n
~
−
+
n
~
+
−
2
e
−
8
n
~
+
δ
2
9
(
μ
1
−
μ
1
)
2
−
2
e
−
8
n
~
−
δ
2
9
(
μ
1
−
μ
1
)
2
1-2e^{-\frac{2\delta^2}{9\sigma^2}.\frac{\tilde n+\tilde n_-}{\tilde n_-+\tilde n_+}}-2e^{-\frac{8\tilde n_+\delta^2}{9(\mu_1-\mu_1)^2}}-2e^{-\frac{8\tilde n_-\delta^2}{9(\mu_1-\mu_1)^2}}
1−2e−9σ22δ2.n~−+n~+n~+n~−−2e−9(μ1−μ1)28n~+δ2−2e−9(μ1−μ1)28n~−δ2的概率,我们估计
θ
^
\hat \theta
θ^满足:
∣
θ
^
−
(
μ
1
+
μ
2
)
/
2
−
∆
(
μ
1
−
μ
2
)
/
2
∣
≤
δ
(1)
|\hatθ-(\mu_1+\mu_2)/2-∆(\mu_1-\mu_2)/2|\le\delta\tag1
∣θ^−(μ1+μ2)/2−∆(μ1−μ2)/2∣≤δ(1)
Interpretation:
1)训练数据的不平衡影响了我们估计的准确性。对于严重不平衡的训练数据,我们期望基分类器在主类和次类之间的准确性有很大的差异。也就是说,数据越不平衡,间隙∆就越大,这就会影响我们的估计和期望值
µ
1
+
µ
2
2
\frac{µ_1+µ_2}2
2µ1+µ2之间的接近性。
2)无标记数据不平衡影响了获得如此良好估计的概率。对于一个相当好的基分类器,我们可以粗略地将
n
~
+
\tilde n_+
n~+和
n
~
−
\tilde n_-
n~−视为未标记集中实际正数据和负数据数量的近似值。对于公式
2
e
−
2
δ
2
9
σ
2
.
n
~
+
n
~
−
n
~
−
+
n
~
+
2e^{-\frac{2\delta^2}{9\sigma^2}.\frac{\tilde n+\tilde n_-}{\tilde n_-+\tilde n_+}}
2e−9σ22δ2.n~−+n~+n~+n~−,注意当
n
~
+
=
n
~
−
\tilde n_+=\tilde n_-
n~+=n~−时,即未标记数据平衡时,
n
~
+
n
~
−
n
~
−
+
n
~
+
\frac{\tilde n+\tilde n_-}{\tilde n_-+\tilde n_+}
n~−+n~+n~+n~−最大化。对于术语
2
e
−
8
n
~
+
δ
2
9
(
μ
1
−
μ
1
)
2
2e^{-\frac{8\tilde n_+\delta^2}{9(\mu_1-\mu_1)^2}}
2e−9(μ1−μ1)28n~+δ2和术语
2
e
−
8
n
~
−
δ
2
9
(
μ
1
−
μ
1
)
2
2e^{-\frac{8\tilde n_-\delta^2}{9(\mu_1-\mu_1)^2}}
2e−9(μ1−μ1)28n~−δ2如果未标记数据严重不平衡,则对应于次要类的项占主导地位,可以中等大。对于平衡的数据,我们成功的概率会更高,但在任何情况下,更多的未标记数据总是有用的。
2.2 Semi-Supervised Imbalanced Learning Framework
我们的理论发现表明,伪标签(以及训练数据中的标签信息)可以有助于不平衡学习。这种有用的程度受到数据的影响。受此启发,我们系统地探讨了未标记数据的有效性,并研究了它如何改善现实的不平衡任务,特别是在不同程度的不平衡的情况下。
Semi-Supervised Imbalanced Learning.
为了利用未标记数据来缓解固有的不平衡,我们建议采用经典的自训练框架,通过为未标记数据生成伪标签来执行半监督学习(SSL)。
精确地说,我们利用原始不平衡数据集
D
L
D_L
DL得到一个中间分类器
f
θ
^
f_{\hat \theta}
fθ^,并将其应用于未标记数据
D
U
D_U
DU生成伪标签
y
^
\hat y
y^。数据和伪标签结合,通过最小化一个损失函数
L
(
D
L
,
θ
)
+
ω
L
(
D
U
,
θ
)
\mathcal L(D_L,\theta)+\omega \mathcal L(D_U,\theta)
L(DL,θ)+ωL(DU,θ)来学习最终的模型
f
θ
^
f
f_{\hat \theta_f}
fθ^f,其中
ω
\omega
ω是未标记的权重。这个过程旨在用
D
U
D_U
DU重塑类的分布,获得更好的类的边界,特别是尾部类的边界。
我们注意到,除了自我训练,更先进的SSL技术可以很容易地纳入我们的框架,只需修改损失函数即可,我们将在后面进行研究。由于我们没有指定 f θ ^ f_{\hat \theta} fθ^和 f θ ^ f f_{\hat \theta_f} fθ^f的学习策略,因此该半监督框架也与现有的类不平衡学习方法相兼容。因此,我们展示了未标记数据的价值——一个简单的自训练程序可以导致不平衡学习的显著更好的性能。
Experimental Setup.
我们对人工创建的CIFAR-10[7]和SVHN[36]的长尾版本进行了彻底的实验,它们自然有未标记的部分具有类似的分布:8000万微型图像[48],以及SVHN自己的额外集[36],SVHN删除了标签。在[7,11]之后,类不平衡比率 ρ \rho ρ被定义为最频繁(头)类的样本量除以最不频繁(尾部)类的样本量。同样地,对于 D U D_U DU,我们用同样的方式定义了未标记的不平衡比 ρ U \rho_U ρU。更多的数据集细节在附录D中报告。
对于具有固定 ρ \rho ρ的长尾数据集,我们增加了5倍以上的未标记数据,表示为 D U @ 5 x D_U@5x DU@5x。当我们试图研究未标记不平衡比的影响时, D U @ 5 x D_U@5x DU@5x的总大小是固定的,其中我们改变 ρ U \rho_U ρU得到相应的不平衡 D U D_U DU。我们选择了标准的交叉熵(CE)训练,和最近提出的最先进的不平衡学习方法LDAM-DRW[7]作为基线方法。我们遵循[7,25,33],在相应的平衡测试数据集上评估模型。
2.2.1 Main Results
CIFAR-10-LT & SVHN-LT表1总结了在两个长尾数据集上的结果。对于每个
ρ
\rho
ρ,我们改变
D
U
D_U
DU的类不平衡类型,使其均匀的(
ρ
U
\rho_U
ρU=1),一半标记(
ρ
U
\rho_U
ρU=
ρ
/
2
\rho/2
ρ/2),相同的(
ρ
U
\rho_U
ρU=
ρ
\rho
ρ)和加倍(
ρ
U
\rho_U
ρU=
2
ρ
2\rho
2ρ)。如表所示,SSL方案可以一致,大大改进了在不同
ρ
\rho
ρ的现有技术。值得注意的是,在极端的类别不平衡(
ρ
=
100
\rho=100
ρ=100)下,使用未标记数据可导致CIFAR-10-LT的+为10%,而SVHN-LT的+为6%。
表1:ResNet-32在长尾CIFAR-10和SVHN上的前1个测试误差(%)。我们使用5x未标记数据(
D
U
@
5
x
D_U@5x
DU@5x)与相应的监督基线来比较SSL。不平衡学习可以得到无标记数据的显著改善,这在不同的
ρ
U
\rho_U
ρU和学习策略中是一致的。
-
Imbalanced Distribution in Unlabeled Data.
如定理1所示,未标记数据不平衡影响最终分类器的学习。我们在表1中观察到,在不同的 ρ U \rho_U ρU下,增益确实有所不同,更小的 ρ U \rho_U ρU(即更平衡的 D U D_U DU)导致更大的增益。然而,有趣的是,随着原始数据集变得更加平衡,来自 D U D_U DU的好处在不同的 ρ U \rho_U ρU中往往是相似的 -
Qualitative Results.
为了进一步理解未标记数据的影响,我们使用t-SNE[34]对使用普通CE(图1a)和SSL(图1b)学习到的表示进行了可视化。结果表明,不平衡的训练集会导致类分离较差,特别是尾部类,从而导致类平衡推理过程中的混合类边界。相比之下,通过利用未标记的数据,可以更好地塑造尾部类的边界,从而导致更清晰的分离和更好的性能。 -
Summary.
在不同的设置中,类不平衡的学习任务从额外的未标记数据中获益良多。所获得的优越性能证明了不平衡标签的正值,因为它能够利用未标记的数据来获得额外的好处。
图1:SVHN-LT上训练和测试集的t-SNE可视化。使用未标记的数据有助于塑造更清晰的类别边界,并导致更好的类别分离,特别是对于尾部类别。
2.2.2 Further Analysis and Ablation Studies
-
Different Semi-Supervised Methods (Appendix E.1). I
除了简单的伪标签外,我们还选择了更先进的SSL技术[35,46],并探讨了不同方法在不平衡设置下的影响。简而言之,所有的SSL方法都可以在监督基线上实现显著的性能提高,而更先进的SSL方法通常会有更大的改进。 -
Generalization on Minority Classes (Appendix E.2).
除了报告的top-1的准确性外,我们还进一步研究了有和没有未标记数据的每个类的泛化。我们表明,虽然所有的类都可以获得一定的改进,但少数类往往表现出更大的收益。 -
Unlabeled & Labeled Data Amount (Appendix E.3 & E.4).
在[39]之后,我们研究了不同数量的DU和DL如何影响我们的不平衡学习中的SSL方法。我们发现,较大的DU或DL往往会带来更高的收益,随着数据量的增加,收益逐渐减少
3 A Closer Look at Unlabeled Data under Class Imbalance
随着性能的显著提高,我们用额外的未标记数据来确认不平衡标签的值。这样的成功自然促使我们深入研究这些技术,并研究SSL是否是实际不平衡数据的解决方案。实际上,在平衡情况下,在某些情况下,当没有理想数据的构建时,SSL存在问题。技术通常对未标记数据的相关性很敏感,如果未标记数据在很大程度上不匹配[39],性能甚至会下降。当画面中出现不平衡时,情况就会变得更加复杂。相关的未标记数据也可以呈现出长尾分布。因此,我们的目标是进一步提供一个关于半监督技术的效用的知情信息。
-
Data Relevance under Imbalance.
我们构建了与训练数据具有相同的不平衡比率,但相关性不同的未标记数据集。具体来说,我们将原始的未标记数据集与不相关的数据混合,并创建具有不同数据相关性比的未标记数据集(详细的设置可在附录D.2中找到)。图2显示,在不平衡学习中,添加来自不匹配类的未标记数据实际上会影响性能。相关性必须高达60%才能有效,而当它只有中等相关性时,可以在没有未标记数据的情况下就可以获得更好的结果。观察结果与平衡的情况[39]相一致。 -
Varying ρU under Sufficient Data Relevance.
即使有足够的相关性,如果相关的未标记数据是(严重的)长尾的,会发生什么呢?如图3所示,对于一个固定的相关性,相关数据的 ρ U \rho_U ρU越高,测试误差就越大。在这种情况下, ρ U \rho_U ρU不能大于50(即训练数据的不平衡比)作为帮助。这突出表明,与传统设置不同,未标记数据的不平衡带来了额外的挑战。 -
Why Do These Matter.
这些观察结果表明,半监督技术在实践中应谨慎地应用于不平衡的学习。当它很容易获得每个类的相关未标记数据时,正如我们所演示的那样,它们特别强大。然而,某些实际应用,特别是那些极其不平衡的应用,都处于频谱的最差一端。例如,在医学诊断中,阳性样本总是稀缺的;即使可以获得更多“未标记”的医疗记录,阳性样本仍然稀少,而且令人混淆的问题(如其他疾病或症状)无疑会损害相关性。因此,在这些应用程序中,未标记数据的不平衡比率会比训练数据更高,如果不是更低的话。
总之,未标记的数据是有用的。然而,半监督学习本身并不足以解决不平衡问题。如果应用程序不允许构建有意义的未标记数据,还需要其他技术,而这恰恰激发了我们进行后续的研究。
*图2:在CIFAR-10-LT上, ρ = 50 \rho=50 ρ=50的未标记数据不同相关性比率的测试误差。我们固定相关的无标签数据 ρ U = 50 \rho_U=50 ρU=50。 | **图3:CIFAR-10-LT上 ρ = 50 \rho=50 ρ=50不同 ρ U \rho_U ρU的相关无标签数据的测试误差。将未标记数据的相关度固定为60%。 |
---|
4 Imbalanced Learning from Self-Supervision
对困境的负面观点,即不平衡的标签引入偏见,因此是“不必要的”,是否也可以被成功地利用来推进不平衡的学习?为了回答这个问题,我们的目标是寻找那些可以在不需要额外数据的情况下被广泛应用的技术。通过一个理论模型,我们首先证明了在不平衡学习的背景下,自我监督的使用。然后设计了大量的实验来验证其有效性,证明通过消极的观点进行思考确实是有希望的
4.1 Theoretical Motivation
我们从另一个鼓舞人心的模型开始,研究不平衡的学习如何从自我监督中获益。考虑 d d d维二元分类,数据生成分布 P X Y P_{XY} PXY是高斯分布的混合物。特别是标签 Y = + 1 Y=+1 Y=+1的概率为 p + p+ p+,而 Y = − 1 Y=−1 Y=−1的概率为 p − = 1 − p + p_−=1−p_+ p−=1−p+。让 p − ≥ 0.5 p_−≥0.5 p−≥0.5,即主类是负的。对于 Y = + 1 Y=+1 Y=+1, X X X是一个d维各向同性高斯分布,即 X ∣ Y = + 1 ∼ N ( 0 , σ 1 2 I d ) X|Y=+1∼\mathcal N(0,\sigma_1^2\mathrm I_d) X∣Y=+1∼N(0,σ12Id)。同样, X ∣ Y = − 1 ∼ N ( 0 , β σ 1 2 I d ) X|Y=-1∼\mathcal N(0,\beta\sigma_1^2\mathrm I_d) X∣Y=−1∼N(0,βσ12Id)对于一些恒定的 β > 3 \beta>3 β>3,即负样本有较大的方差。训练数据 { ( X i , Y i ) } i = 1 N \{(X_i,Y_i)\}_{i=1}^N {(Xi,Yi)}i=1N{(Xi,Yi)}Ni=1可能是高度不平衡的,我们用 N + & N − N_+ \& N_- N+&N−表示正和负样本的数量
为了发展我们的直觉,我们考虑学习一个有和没有自我监督的线性分类器。特别地,考虑线性分类器 f ( x ) = s i g n ( ⟨ θ , f e a t u r e ⟩ + b ) f(x)=sign(\langle\theta,feature\rangle+b) f(x)=sign(⟨θ,feature⟩+b),其中特征是标准训练中的原始输入 X X X,对于自我监督学习,一些表示 ψ \psi ψ的特征是 Z = ψ ( X ) Z=\psi(X) Z=ψ(X)。为了方便起见,我们考虑截距 b ≥ 0 b\ge0 b≥0。我们假设一个适当设计的黑盒自我监督任务,使学习到的表示是 Z = k 1 ∣ ∣ X ∣ ∣ 2 2 + k 2 Z=k_1||X||_2^2+k_2 Z=k1∣∣X∣∣22+k2,其中 k 1 , k 2 > 0 k1,k2\gt0 k1,k2>0。准确地说,这意味着我们可以在黑盒自我监督步骤之后访问第 i i i个数据的新特性 Z i Z_i Zi,而不明确地知道转换\psi是什么。最后,我们使用标准误差概率: e r r f = P ( X , Y ) ∼ P X Y ( f ( X ) ≠ Y ) err_f=\mathbb P_{(X,Y)∼P_XY}(f(X)\neq Y) errf=P(X,Y)∼PXY(f(X)=Y)
Theorem 2.
令 Φ \Phi Φ作为 N ( 0 , 1 ) \mathcal N(0,1) N(0,1)的 C D F CDF CDF,对于任何 b > 0 b>0 b>0形如 f ( x ) = s i g n ( ⟨ θ , X ⟩ + b ) f(x)=sign(\langle\theta,X\rangle+b) f(x)=sign(⟨θ,X⟩+b)的线性分类器,错误率满足: e r r f = p + Φ ( − b ∣ ∣ θ ∣ ∣ 2 σ 1 ) + p − Φ ( b ∣ ∣ θ ∣ ∣ 2 β σ 1 ) ≥ 1 4 err_f=p_+\Phi(-\frac{b}{||\theta||_2\sigma_1})+p_-\Phi(\frac{b}{||\theta||_2\sqrt{\beta}\sigma_1})\ge\frac14 errf=p+Φ(−∣∣θ∣∣2σ1b)+p−Φ(∣∣θ∣∣2βσ1b)≥41
定理2指出,对于标准训练,无论训练数据是否不平衡,线性分类器都不可能有 ≥ 3 4 \ge\frac34 ≥43的精度。对于这样一个简单的案例来说,这是相当令人沮丧的。 然而,我们表明,自我监督和对产生的 Z Z Z的训练提供了一个更好的分类器。考虑相同的线性分类器 f ( x ) = s i g n ( ⟨ θ , f e a t u r e ⟩ + b ) , b > 0 f(x)=sign(\langle\theta,feature\rangle+b),b>0 f(x)=sign(⟨θ,feature⟩+b),b>0,带有特征 Z = ψ ( X ) : f s s ( X ) = s i g n ( − Z + b ) , b = 1 2 ( ∑ i = 1 N 1 { Y i = + 1 } Z i N + + ∑ i = 1 N 1 { Y i = − 1 } Z i N − ) Z=\psi(X):f_{ss}(X)=sign(-Z+b),b=\frac12(\frac{\sum_{i=1}^N1_{\{Y_i=+1\}}Z_i}{N_+}+\frac{\sum_{i=1}^N1_{\{Y_i=-1\}}Z_i}{N_-}) Z=ψ(X):fss(X)=sign(−Z+b),b=21(N+∑i=1N1{Yi=+1}Zi+N−∑i=1N1{Yi=−1}Zi)。下一个定理显示了该线性分类器性能的高概率误差边界
Theorem 3
考虑到具有自我监督学习的线性分类器,
f
s
s
f_{ss}
fss。对于任何
δ
∈
(
0
,
β
−
1
β
+
1
)
\delta\in(0,\frac{\beta-1}{\beta+1})
δ∈(0,β+1β−1),我们至少有
1
−
2
e
−
N
−
d
δ
2
/
8
−
2
e
−
N
+
d
δ
2
/
8
1-2e^{-N_-d\delta^2/8}-2e^{-N_+d\delta^2/8}
1−2e−N−dδ2/8−2e−N+dδ2/8的概率,分类器满足
e
r
r
f
s
s
≤
{
p
+
e
−
d
⋅
(
β
−
1
−
(
1
+
β
)
δ
)
2
32
+
p
−
e
−
d
⋅
(
β
−
1
−
(
1
+
β
)
δ
)
2
32
β
2
,
if
δ
∈
[
β
−
3
β
+
1
,
β
−
1
β
+
1
)
p
+
e
−
d
⋅
(
β
−
1
−
(
1
+
β
)
δ
)
16
+
p
−
e
−
d
⋅
(
β
−
1
−
(
1
+
β
)
δ
)
2
32
β
2
,
if
δ
∈
(
0
,
β
−
3
β
+
1
)
(2)
err_{f_{ss}}\le \begin{cases} {p_+e^{-d\cdot\frac{(\beta-1-(1+\beta)\delta)^2}{32}}+p_-e^{-d\cdot\frac{(\beta-1-(1+\beta)\delta)^2}{32\beta^2}},} & \text{if $\delta\in[\frac{\beta-3}{\beta+1},\frac{\beta-1}{\beta+1})$}\\ {p_+e^{-d\cdot\frac{(\beta-1-(1+\beta)\delta)}{16}}+p_-e^{-d\cdot\frac{(\beta-1-(1+\beta)\delta)^2}{32\beta^2}},} & \text{if $\delta\in(0,\frac{\beta-3}{\beta+1})$} \end{cases} \tag2
errfss≤⎩
⎨
⎧p+e−d⋅32(β−1−(1+β)δ)2+p−e−d⋅32β2(β−1−(1+β)δ)2,p+e−d⋅16(β−1−(1+β)δ)+p−e−d⋅32β2(β−1−(1+β)δ)2,if δ∈[β+1β−3,β+1β−1)if δ∈(0,β+1β−3)(2)
Interpretation
定理3暗示了以下有趣的观察结果。首先放弃不平衡的标签,通过自我监督学习信息表征 :
1)高概率,得到了一个满意的分类器
f
s
s
f_{ss}
fss,其误差概率在维度
d
d
d上呈指数衰减。获得这种分类器的概率也呈指数级地取决于
d
d
d和数据的数量。这些数据相当吸引人,因为现代数据是非常高的。也就是说,即使是对于不平衡的数据,也可以通过适当的自我监督训练得到一个良好的分类器;
2)训练数据的不平衡影响了我们获得这样一个令人满意的分类器的概率。准确地说,给定
N
N
N个数据,如果它与一个极小的
N
+
N_+
N+高度不平衡,那么公式
2
e
x
p
(
−
N
+
d
δ
2
/
8
)
2exp(−N_+d\delta^2/8)
2exp(−N+dδ2/8)可能是中等的,并主导
2
e
x
p
(
−
N
−
d
δ
2
/
8
)
2exp(−N_-d\delta^2/8)
2exp(−N−dδ2/8)。有了或多或少平衡的数据(或者只是更多的数据),我们成功的概率就会增加。然而,由于依赖性是指数级的,即使对于不平衡的训练数据,自我监督学习仍然可以帮助获得一个令人满意的分类器。
表2:ResNet-32在长尾CIFAR-10和CIFAR-100上的Top-1测试错误率(%)。使用SSP,我们不断改进不同的不平衡学习技术,并取得了最好的性能。
4.2 Self-Supervised Imbalanced Learning Framework
下面研究自我监督如何在现实环境中帮助和改善不平衡的任务。
####Self-Supervised Imbalanced Learning.
为了利用自我监督来克服内在的标签偏见,我们建议,在学习的第一阶段,放弃标签信息,并进行自我监督的预训练(SSP)。这个过程旨在从不平衡的数据集中学习更好的与标签无关的初始化。在有自我监督的第一阶段学习之后,我们可以执行任何标准的训练方法来学习由预先训练的网络初始化的最终模型。由于预训练独立于在正常训练阶段所应用的学习方法,因此这种策略与任何现有的不平衡学习技术都是兼容的。
一旦自我监督产生了良好的初始化,网络就可以从训练前的任务中获益,并最终学习到更多可一般化的表示。由于SSP可以很容易地与现有的技术一起嵌入,因此我们希望任何基分类器都可以使用SSP进行持续的改进。为此,我们对SSP进行了实证评估,并表明在各种大规模长尾基准中,它导致了类不平衡学习的一致和实质性的改进。
####Experimental Setup.
我们在基准CIFAR-10-LT和CIFAR-100-LT以及大规模长尾数据集上进行了大量实验,包括ImageNet-LT[33]和真实数据集2018[24]。我们再次在相应的平衡测试数据集[7,25,33]上评估模型。我们在CIFAR-LT上使用旋转[16]作为SSP方法,在ImageNet-LT和自然学家上使用MoCo[19]方法。在分类器学习阶段,我们遵循[7,25]在CIFAR-LT上训练200个模型,在ImageNet-LT和自然学家上训练90个模型。其他实施细节见附录D.3。
4.2.1 Main Results
- CIFAR-10-LT & CIFAR-100-LT
我们在表2中提出了对长尾CIFAR的不平衡分类。我们选择了标准的交叉熵(CE)损失、焦点损失[32]、类平衡(CB)损失[11]、重新加权或重新采样的训练计划[7],以及最近提出的LDAM-DRW[7]作为最先进的方法。根据他们使用的基本损失或学习策略,我们将竞争方法分为四个阶段。如表2所示,在跨不同ρ的每个会话中,添加SSP始终显著优于竞争对手。此外,随着ρ的增加,SSP的好处变得更加显著,表明了阶级不平衡下自我监督的价值。
表3:ImageNet-LT上的Top-1测试错误率(%)。+表示作者的代码再现的结果。 | 表4:iNaturalist 2018上的Top-1测试错误率(%)。+表示作者的代码再现的结果。 |
---|
- ImageNet-LT & iNaturalist 2018.
除了标准和平衡的CE训练外,我们还选择了其他基线,包括OLTR[33]和最近提出的分类器再训练(cRT)[25],它们在大规模数据集上实现了最先进的水平。表3和表4分别显示了两个数据集上的结果。在这两个数据集上,添加SSP设置了新的最先进的水平,大大提高了当前的技术,绝对性能提高了4%。一致的结果证实了SSP在现实的大规模不平衡学习场景中应用的成功。 - Qualitative Results.
为了获得更多的见解,我们观察了普通CE训练(图4a)和SSP(图4b)的学习表征的t-SNE投影。对于每种方法,都在训练数据和测试数据上进行投影,从而为更好的可视化提供相同的决策边界。从图中可以看出,头类可以大大改变普通CE的决策边界,导致在(平衡)推理过程中尾类的大量泄漏。相比之下,使用SSP可以保持清晰的分离,泄漏更少,特别是在相邻的头和尾类之间。 - Summary.
无论设置和基础训练技术如何,在学习的第一阶段添加我们的自我监督框架可以统一地提高最终的表现。这强调了对不平衡标签的消极的、“不必要的”的观点在改进最先进的不平衡学习方法方面也是有价值的和有效的
图4:CIFAR-10-LT上训练和测试集的t-SNE可视化。使用SSP有助于缓解测试过程中的尾部类别泄漏,从而获得更好的学习边界和表现。
4.2.2 Further Analysis and Ablation Studies
- Different Self-Supervised Methods (Appendix F.1).
我们选择了四种不同的SSP技术,并在四个基准数据集中对它们进行了评估。一般来说,与基线相比,所有的SSP方法都可以导致显著的增益,而有趣的是,不同方法的增益有所不同。我们发现,MoCo[19]在大规模数据集上表现更好,而旋转[16]在较小的数据集上取得了更好的结果。 - Generalization on Minority Classes (Appendix F.2).
除了top-1的准确性,我们进一步研究了每个特定类别的泛化。在CIFAR-10-LT和ImageNet-LT上,我们观察到SSP可以在所有类别中带来一致的收益,其中尾部类别的趋势更为明显。 - Imbalance Type (Appendix F.3).
虽然主要论文关注的是长尾不平衡分布,这是最常见的不平衡类型,但我们注意到在文献[5]中也提出了其他的不平衡类型。我们提出了另一种类型的不平衡的消融研究,即步进不平衡[5],在添加SSP时,验证了一致的改进和结论。
5 Related Work
Imbalanced Learning & Long-tailed Recognition.
关于学习长尾不平衡数据的文献很丰富。经典的方法一直侧重于设计数据重采样策略,包括对少数类[2,41,44]进行过采样和对多数类[5,31]过采样。此外,还提出了成本敏感的重加权方案[6,22,23,27,52],以(动态地)在不同类别甚至不同样本的训练时调整权重。对于不平衡分类问题,另一项工作通过考虑类内或类间的属性来开发类平衡损失[7,11,13,26,32]。其他的学习范式,包括迁移学习[33,54],度量学习[55,58],和元学习[1,45],也已经被探索。最近的研究[25,59]也发现,解耦表示和分类器可以导致更好的长尾学习结果。与现有的工作相比,我们通过不平衡标签的两种观点提供了系统的策略,这促进了半监督和自我监督方式的不平衡学习
Semi-Supervised Learning.
半监督学习涉及从未标记和标记样本中学习,其中典型的方法从熵最小化[18]、伪标记[30]到生成模型[15,17,29,42,56]。最近,一项提出使用基于一致性的正则化方法的工作在半监督任务中显示出了良好的性能,在该任务中,使用未标记数据[3,28,35,43,46,50]将决策边界推到低密度区域。常见的评估协议假设未标记的数据来自与已标记的数据相同或相似的分布,而[39]的作者认为它可能不能反映现实的设置。在我们的工作中,我们考虑了标记和未标记数据集的数据不平衡,以及未标记数据的数据相关性,这完全为不平衡学习任务的半监督学习提供了一个有原则的设置。
Self-Supervised Learning.
自监督学习最近吸引了越来越多的兴趣,早期的方法主要依赖代理任务,包括范例分类[14],预测图像补丁的相对位置[12],图像彩色[57],解决拼图图像块[37],对象计数[38],聚类[9],预测图像的旋转[16]。最近,一系列基于对比损失[4,19,21,40,47]的工作在自监督表示学习中取得了巨大的成功,在同一训练示例的不同视图中学习相似的嵌入,在不同训练示例中学习不同的嵌入。我们的工作调查了在类不平衡的背景下的自我监督预训练,揭示了关于自我监督如何帮助缓解不平衡学习中的偏倚标签效应的令人惊讶但有趣的发现
6 Conclusion
系统地研究了标签在类不平衡学习中的价值,并提出了两种基于理论的策略,以半监督和自我监督的方式来理解、验证和利用这种不平衡标签。在大规模不平衡数据集上,都证明了良好的理论保证和优越的性能,证实了所提方案的意义。
Broader Impact
真实世界的数据通常呈现出长尾的偏态分布,而不是每个类上的理想均匀分布。我们通过两个新的角度来解决这个重要的问题:(1)使用未标记的数据而不依赖于额外的人类标记;(2)通过自我监督来探索数据本身的内在属性。这些简单而有效的策略引入了改进通用不平衡学习任务的新框架,我们相信这将广泛地有利于在现实应用中处理严重不平衡数据的从业者。
另一方面,我们只在学术数据集上广泛地测试我们的策略。在许多现实世界的应用中,如自动驾驶、医疗诊断和医疗保健,除了自然不平衡之外,数据可能对学习过程和最终模型施加额外的限制,例如公平或隐私。我们关注标准的准确性作为我们的衡量标准,并在很大程度上忽略了不平衡数据中的其他伦理问题,特别是在次要类别中。因此,产生不公平或有偏见的产出的风险提醒我们,要在关键的、高风险的应用程序中进行严格的验证。
知识点
笔记
1. 标签优点
- 额外的未标记数据有利于不平衡学习
- 添加额外的未标记数据进行训练,即半监督学习
- 半监督学习
2. 标签缺点
-
不平衡的标签会造成“标签偏差”(图源:Class-Balanced Loss Based on Effective Number of Samples)
-
在训练开始时,首先放弃标签信息进行预训练,即自监督学习
-
自监督学习