《Balanced Meta-Softmax for Long-Tailed Visual Recognition》阅读笔记

论文标题

《Balanced Meta-Softmax for Long-Tailed Visual Recognition》

用于长尾视觉识别的平衡元-Softmax

作者

Jiawei Ren、Cunjun Yu、Shunan Sheng、Xiao Ma、Haiyu Zhao、Shuai Yi 和 Hongsheng Li

商汤科技、南洋理工大学、新加坡国立大学和香港中文大学多媒体实验室

初读

摘要

  • 背景:
    • 深度分类器在视觉识别领域取得了巨大成功。然而,现实世界的数据本质上是长尾的,导致训练和测试分布不匹配。
    • 在本文中,我们展示 Softmax 函数虽然在大多数分类任务中被使用,但在长尾设置下会给出有偏的梯度估计。
  • 本文贡献:
    • 本文提出了平衡 Softmax,
      • 这是 Softmax 的一个优雅的无偏扩展,以适应训练和测试之间的标签分布偏移。
      • 理论上,我们为多类 Softmax 回归导出了泛化界,并展示我们的损失函数最小化了该界。
    • 此外,我们引入了平衡元 Softmax,应用一个互补的元采样器来估计最优类别样本率,从而进一步改进长尾学习。
  • 在我们的实验中,我们证明了平衡元 Softmax 在视觉识别和实例分割任务上都优于最先进的长尾分类解决方案。

结论

  • 我们介绍了 BALMS 用于长尾视觉识别任务。

    BALMS 解决了训练和测试之间的分布偏移问题,将元学习与泛化误差界理论相结合:

    • 它优化了一个平衡 Softmax 函数,理论上最小化泛化误差界;
    • 它通过学习一个有效的元采样器来改善大型长尾数据集上的优化。
    • BALMS 通常在 4 个图像分类数据集和 1 个实例分割数据集上以较大幅度优于现有技术水平(SOTA)方法,特别是在不平衡因子很高时。
  • 然而,在实际应用中,元采样器在计算上是非常昂贵的,而且在大型数据集上的优化速度很慢。

  • 此外,平衡 Softmax 函数只是近似保证了一个泛化误差界。未来的工作可能会将当前框架扩展到更广泛的任务中,例如机器翻译,并相应地设计更紧的误差界和计算效率更高的元学习算法。

再读

Section 1 Introduction

  • 长尾问题

    • 大多数现实世界的数据都具有长尾特性:少数高频率类别(或头部类别)构成了大部分观察结果,而大量低频率类别(或尾部类别)在数据中代表性不足。
      • 以一个实例分割数据集 LVIS为例,香蕉类别的实例数量可能比诱饵类别的实例数量多几千倍。
    • 在实践中,每个类别的样本数量通常从头部类别到尾部类别呈指数级下降。根据幂律分布,尾部可能会过于沉重。在长尾训练数据集上最小化经验风险的模型通常在类别平衡的测试数据集上表现不佳。
    • 由于如今数据集的规模不断扩大,长尾特性对许多视觉任务(例如视觉识别和实例分割)提出了严峻的挑战。
  • 重新平衡数据分布(re-balance the data distribution)

    • 针对长尾任务的直观解决方案是重新平衡数据分布。大多数最先进(SOTA)方法使用类别平衡采样或损失重加权来“模拟”一个平衡的训练集。
    • 然而,这些方法可能会低估头部类别的代表性或在优化过程中出现梯度问题。
    • Cao 等人从泛化误差界的角度引入了标签分布感知边际损失(LDAM)。
      • 鉴于较少的训练样本,尾部类在优化过程中应该有更高的泛化误差界。
      • 然而,LDAM 是从合页损失导出的,在二元分类设置下,并不适合多类分类。
  • 平衡元-softmax(Balanced Meta-Softmax,BALMS)

    我们提出了用于长尾视觉识别的平衡元-softmax(BALMS)。

    • 平衡 softmax 函数

      • 我们首先展示了在长尾场景下,softmax 函数本质上是有偏的。我们从概率的角度推导出了一个平衡 softmax 函数,该函数显式地模拟了测试时标签分布的偏移。

      • 理论上,我们发现优化平衡 softmax 交叉熵损失等同于最小化泛化误差界。

      • 平衡 softmax 通常在具有适度不平衡比例的数据集上改善了长尾分类性能,

        • 例如,最大不平衡因子为 200 的 CIFAR-10-LT。
      • 然而,对于具有极大不平衡因子的数据集,

        • 例如,不平衡因子为 26,148 的 LVIS,优化过程变得困难。
    • 元采样器(Meta Sampler)

      作为损失函数的补充,我们引入了元采样器(Meta Sampler),它通过元学习来重新采样,以实现高验证准确率。

    • 平衡 softmax 和元采样器的结合可以有效解决具有高不平衡因子的长尾分类任务。

  • 实验

    • 我们在五个常用的数据集上评估了 BALMS,包括长尾图像分类和实例分割:CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, Places-LT 和 LVIS。
    • 在所有数据集上,BALMS 都超越了现有技术水平的方法。特别是,在极端不平衡因子的情况下,BALMS 在 LVIS 上的表现大大超过了所有 SOTA 方法。
  • 本文贡献

    我们的贡献总结如下:

    1. 我们从理论上分析了 softmax 函数在长尾任务中的不足;
    2. 我们引入了平衡 softmax 函数,该函数在优化过程中显式考虑了标签分布的偏移;
    3. 我们提出了元采样器(Meta Sampler),一种基于元学习的长尾学习重新采样策略。

Section 2 Related Works

  • 数据再平衡(Data Re-Balancing)

    • 主要工作:
      • 开创性的工作主要集中在训练过程中的重新平衡。具体来说,重新采样策略试图从失衡的训练数据中恢复真实的分布。
      • 重新加权,即成本敏感学习,为每个类的损失分配一个成本权重。
    • 缺陷:
      • 然而,有人认为过采样本质上会对尾部类别过拟合,而欠采样则不足以代表头部类别的丰富变化。
      • 同时,当类别失衡严重时,重新加权往往会导致训练不稳定,因为当权重非常大时,会产生异常大的梯度。
  • 损失函数工程(Loss Function Engineering)

    • 主要工作:

      • Tan 等人指出,在 Softmax 函数中随机丢弃尾部类别的某些分数可以有效帮助平衡通过分数输出的正梯度和负梯度。
      • Cao 等人展示了通过增加尾部类别的边缘,可以最小化泛化误差界。
      • Hayat 等人基于贝叶斯不确定性修改了损失函数。
      • Li 等人提出了两种新的损失函数来平衡梯度流。
      • Khan 等人联合学习模型参数和类依赖的损失函数参数。
      • Ye 等人通过对少数类别施加大的边缘来防止特征偏差。
    • 本文工作:

      我们在这些工作的基础上引入了概率上的洞见,这同样带来了实证上的改进。我们在本文中展示,理想的损失函数在长尾场景下应该是无偏的。

  • 元学习(Meta-Learning)

    • 许多方法已经被提出,利用元学习来解决长尾问题。
    • 其中许多方法专注于将每个样本的权重作为可学习参数进行优化,这在基于样本的重新加权方法中表现为超参数。
    • 这组方法需要一个干净且无偏的数据集作为元集,即开发集,这通常是训练图像的一个固定子集,并使用双层优化来估计权重参数。
  • 解耦训练(Decoupled Training)

    • Kang 等人指出,解耦训练是一种简单而有效的解决方案,可以显著改善长尾数据集上的泛化问题。在非平衡数据集训练时,分类器是唯一表现不佳的组件。
    • 然而,在我们的实验中,我们发现这种技术在具有极高不平衡因子(例如 LVIS)的数据集上并不足够。
    • 有趣的是,在我们的实验中,我们观察到解耦训练与我们的提出的 BALMS 是互补的,将它们结合使用可以带来额外的改进

Section 3 Balanced Meta-Softmax

  • 长尾识别及其符号表示:

    长尾视觉识别的主要挑战在于不平衡的训练数据分布与鼓励在平衡测试集上最小化错误的平衡指标(例如,平均精度均值(mAP))之间的不匹配。

    • X = { x i , y i } ,   i ∈ { 1 , ⋯   , n } \mathcal{X}=\{x_i,y_i\},\ i\in\{1,\cdots,n\} X={xi,yi}, i{1,,n} 为平衡的测试集,其中 x i x_i xi 表示一个数据点, y i y_i yi 表示其标签。
    • k k k 为类的数量, n j n_j nj 为类 j j j 中的样本数量,其中 ∑ j = 1 k n j = n \sum^k_{j=1}n_j=n j=1knj=n
    • 类似地,我们用 $ \hat{\mathcal{X}}={\hat{x}_i,\hat{y}_i},\ i\in{1,\cdots,n}$ 表示长尾的训练集。
    • 通常情况下,我们有 ∀   i , p ( y ^ i ) ≠ p ( y i ) \forall\ i,p(\hat{y}_i)\ne p(y_i)  i,p(y^i)=p(yi)。特别是,对于尾部类 j j j p ( y ^ i ) ≪ p ( y i ) p(\hat{y}_i)\ll p(y_i) p(y^i)p(yi),这使得在长尾场景下的泛化极具挑战性。
  • 我们引入了平衡元-softmax(Balanced Meta-Softmax,BALMS)用于长尾视觉识别。它有两个组成部分:

    1. 一个平衡 softmax 函数,用于适应训练和测试之间的标签分布偏移;
    2. 一个元采样器,通过元学习学习重新采样训练集。我们用一个特征提取函数 f f f 和一个线性分类器的权重 θ \theta θ 来表示。

3.1 Balanced Softmax

  • 标签分布偏移(Label Distribution Shift)

    • 重温 Softmax:

      我们从重温多类 Softmax 回归开始,通常我们感兴趣的是估计条件概率 p ( y ∣ x ) p(y|x) p(yx),它可以被建模为一个多项式分布 ϕ \phi ϕ
      ϕ = ϕ 1 1 { y = 1 } ϕ 2 1 { y = 2 } ⋯ ϕ k 1 { y = k } ; ϕ j = e η j ∑ i = 1 k e η j ; ∑ j = 1 k ϕ j = 1 ( 1 ) \phi=\phi_1^{\boldsymbol1\{y=1\}}\phi_2^{\boldsymbol1\{y=2\}}\cdots\phi_k^{\boldsymbol1\{y=k\}};\quad\phi_j=\frac{e^{\eta j}}{\sum^k_{i=1}e^{\eta j}};\quad\sum_{j=1}^k\phi_j=1\qquad\qquad(1) ϕ=ϕ11{y=1}ϕ21{y=2}ϕk1{y=k};ϕj=i=1keηjeηj;j=1kϕj=1(1)

      • 其中 1 ( ⋅ ) \boldsymbol1(\cdot) 1() 是指示函数,
      • Softmax 函数将模型的类 j j j 输出 η j = θ j T f ( x ) \eta_j=\theta^T_j f(x) ηj=θjTf(x) 映射到条件概率 ϕ j \phi_j ϕj

      从贝叶斯推理的角度来看, ϕ j \phi_j ϕj 也可以解释为:
      ϕ j = p ( y = j ∣ x ) = p ( x ∣ y = j ) p ( y = j ) p ( x ) ( 2 ) \phi_j=p(y=j|x)=\frac{p(x|y=j)p(y=j)}{p(x)}\qquad\qquad(2) ϕj=p(y=jx)=p(x)p(xy=j)p(y=j)(2)

    • 有偏估计:

      • 其中 p ( y = j ) p(y=j) p(y=j) 在类别不平衡的设置中尤其感兴趣。假设训练数据集和测试数据集中的所有实例都来自相同的生成过程 p ( x ∣ y = j ) p(x|y=j) p(xy=j),由于不同的标签分布 p ( y = j ) p(y=j) p(y=j) 和证据 p ( x ) p(x) p(x),训练和测试之间仍然可能存在差异。
      • 为了方便起见,我们重新定义 ϕ \phi ϕ 为平衡测试集上的条件分布,并定义 ϕ ^ \hat{\phi} ϕ^ 为不平衡训练集上的条件概率。因此,标准的 Softmax 为 ϕ \phi ϕ 提供了一个有偏的估计。
  • 平衡 Softmax(Balanced Softmax)

    为了消除训练和测试后验分布之间的差异,我们引入了平衡 Softmax。我们使用相同的模型输出 η \eta η 来参数化两个条件概率: ϕ \phi ϕ 用于测试, ϕ ^ \hat{\phi} ϕ^ 用于训练。

    • 定理 1. 假设 ϕ \phi ϕ 是平衡数据集所需的条件概率,形式为 ϕ j = p ( y = j ∣ x ) = p ( x ∣ y = j ) p ( x ) 1 k \phi_j=p(y=j|x)=\frac{p(x|y=j)}{p(x)}\frac{1}{k} ϕj=p(y=jx)=p(x)p(xy=j)k1 ,以及 ϕ ^ \hat{\phi} ϕ^ 是不平衡训练集所需的条件概率,形式为 ϕ ^ j = p ^ ( y = j ∣ x ) = p ( x ∣ y = j ) p ^ ( x ) n j ∑ i = 1 k n i \hat{\phi}_j=\hat{p}(y=j|x)=\frac{p(x|y=j)}{\hat{p}(x)}\frac{n_j}{\sum^k_{i=1}n_i} ϕ^j=p^(y=jx)=p^(x)p(xy=j)i=1kninj 。如果 ϕ \phi ϕ 由模型输出的标准 Softmax 函数表示,那么 ϕ ^ \hat{\phi} ϕ^ 可以表示为
      ϕ ^ j = n j e η j ∑ i = 1 k n i e η i . ( 3 ) \hat{\phi}_j=\frac{n_j e^{\eta_j}}{\sum^k_{i=1}n_i e^{\eta_i}}.\qquad\qquad(3) ϕ^j=i=1knieηinjeηj.(3)

    我们使用指数族参数化来证明定理 1。证明可以在补充材料中找到。定理 1 本质上展示了应用以下平衡 Softmax 函数可以自然地适应训练和测试集之间的标签分布偏移。我们定义平衡 Softmax 函数为
    l ^ ( θ ) = − log ⁡ ( ϕ ^ y ) = − log ⁡ ( n y e η y ∑ i = 1 k n i e η i ) . ( 4 ) \hat{l}(θ)=−\log(\hat{\phi}_y) =−\log\left(\frac{n_y e^{\eta_y}}{\sum^k_{i=1} n_i e^{\eta_i}}\right).\qquad\qquad(4) l^(θ)=log(ϕ^y)=log(i=1knieηinyeηy).(4)
    我们在接下来的部分中进一步研究了平衡 Softmax 带来的改进。

    许多视觉任务,例如实例分割,可能使用多个二元逻辑回归而不是多类 Softmax 回归。利用贝叶斯定理,类似的策略可以应用于多个二元逻辑回归。详细的推导留给补充材料。

  • 泛化误差边界(Generalization Error Bound)

    泛化误差界为模型的测试误差提供了一个上限,这是基于其训练误差给出的。由于训练样本数量急剧减少,尾部类别的泛化界要远高于头部类别,这使得在尾部类别上获得良好的分类性能变得不太可能。在本节中,我们展示了优化方程式 4 等同于最小化泛化上限。

    边缘理论提供了一个基于边缘的界。边缘界通常与边缘的大小负相关,即较大的边缘导致较低的泛化误差。因此,在所有类别的边缘之和受到约束的情况下,少数类别和多数类别之间会存在权衡。
    为多类分类定位这样一个最优边缘并非易事。在 [4] 中研究的边界是为使用合页损失的二元分类建立的。在这里,我们尝试为多类 Softmax 回归开发边缘界。根据之前定义的 ϕ \phi ϕ ϕ ^ \hat{\phi} ϕ^,我们通过最小化边缘界来导出 l ^ ( θ ) \hat{l}(\theta) l^(θ)。边缘界通常对 0 − 1 0-1 01 错误进行界定:
    e r r 0 , 1 = Pr ⁡ [ θ y T f ( x ) < max ⁡ i ≠ y θ i T f ( x ) ] . ( 5 ) err_{0,1}=\Pr\left[\theta^T_y f(x)<\substack{\max\\i\ne y}\theta^T_i f(x)\right].\qquad\qquad(5) err0,1=Pr[θyTf(x)<maxi=yθiTf(x)].(5)
    然而,直接使用 0 − 1 0-1 01 错误作为损失函数并不适合优化。相反,负对数似然(NLL)通常被认为更合适。通过对 Eqn. 5 的连续放松,我们得到
    e r r ( t ) = Pr ⁡ [ t < log ⁡ ( 1 + ∑ i ≠ y e θ i T f ( x ) − θ y T f ( x ) ) ] = Pr ⁡ [ l y ( θ ) > t ] , ( 6 ) err(t)=\Pr\left[t<\log(1+\sum_{i\ne y}e^{\theta^T_i f(x)−\theta^T_y f(x)})]=\Pr [l_y(\theta)>t\right],\qquad\qquad(6) err(t)=Pr t<log(1+i=yeθiTf(x)θyTf(x))]=Pr[ly(θ)>t ,(6)
    其中 t ≥ 0 t\ge0 t0 是任何阈值, l y ( θ ) l_y(\theta) ly(θ) 是带有 Softmax 的标准负对数似然,即交叉熵损失。这个新的错误仍然是一个计数器,但它描述了测试损失大于给定阈值的可能性。自然地,我们定义类别 j j j 的边缘为
    γ j = t − max ⁡ ( x , y ) ∈ S j l j ( θ ) . ( 7 ) \gamma_j=t−\substack{\max\\(x,y)\in S_j}l_j(\theta).\qquad\qquad(7) γj=tmax(x,y)Sjlj(θ).(7)
    其中 S j S_j Sj 是所有类别 j j j 样本的集合。如果在训练过程中强制一个大的边缘 γ j \gamma_j γj,即强制训练损失远低于 t t t,那么 e r r ( t ) err(t) err(t) 将会减少。在 [15] 中的定理 2 可以直接推广为:

    • 定理 2. 令 t ≥ 0 t\ge 0 t0 是任何阈值,对于所有 γ j > 0 \gamma_j>0 γj>0,以至少 1 − δ 1−\delta 1δ 的概率,我们有
      e r r b a l ( t ) ≲ 1 k ∑ j = 1 k ( 1 γ j C n j + log ⁡ n n j ) ; γ j ∗ = β n j − 1 / 4 ∑ i = 1 k n i − 1 / 4 , ( 8 ) err_{bal}(t)\lesssim\frac{1}{k}\sum^k_{j=1}\left(\frac{1}{\gamma_j}\sqrt{\frac{C}{n_j}}+\frac{\log n}{\sqrt n_j}\right);\quad\gamma^∗_j=\frac{\beta_{n_j^{-1/4}}}{\sum^k_{i=1}n^{−1/4}_i},\qquad\qquad(8) errbal(t)k1j=1k(γj1njC +n jlogn);γj=i=1kni1/4βnj1/4,(8)

    其中 e r r b a l ( t ) errbal(t) errbal(t) 是在平衡测试集上的错误, ≲ \lesssim 用于隐藏常数项, C C C 是复杂度的一个度量。在 ∑ j = 1 k γ j = β \sum^k_{j=1}\gamma_j=\beta j=1kγj=β 的约束下,柯西-施瓦茨不等式给出了最优 γ j ∗ \gamma^∗_j γj

    最优 γ ∗ \gamma^∗ γ 提示我们需要为样本较少的类别提供更大的 γ \gamma γ。换句话说,为了达到最优的泛化能力,我们需要专注于最小化尾部类别的训练损失。为了强制执行最优边缘,对于每个类别 j j j,所需的训练损失 l ^ j ∗ ( θ ) \hat{l}^∗_j(\theta) l^j(θ)

    l ^ j ∗ ( θ ) = l j ( θ ) + γ j ∗ , 其中 l j ( θ ) = − log ⁡ ( ϕ j ) , ( 9 ) \hat{l}^∗_j(\theta)=l_j(\theta)+\gamma^∗_j,\quad\text{其中}\quad l_j(\theta)=−\log(\phi_j),\qquad\qquad(9) l^j(θ)=lj(θ)+γj,其中lj(θ)=log(ϕj),(9)

    • 推论 2.1. l ^ j ∗ ( θ ) = l j ( θ ) + γ j ∗ = l j ( θ ) + β n − 1 / 4 ∑ i = 1 k n i − 1 / 4 \hat{l}^∗_j(\theta)=l_j(\theta)+\gamma^∗_j=l_j(\theta)+\frac{\beta n^{−1/4}}{\sum^k_{i=1}n^{−1/4}_i} l^j(θ)=lj(θ)+γj=lj(θ)+i=1kni1/4βn1/4 可以通过 l ^ j ( θ ) \hat{l}_j(\theta) l^j(θ) 近似,当:
      l ^ j ( θ ) = − log ⁡ ( ϕ ^ j ) ; ϕ ^ j = e η j − log ⁡ γ ∗ ∑ i = 1 k e η i − log ⁡ γ i ∗ = n j 1 / 4 e η j ∑ i = 1 k n i 1 / 4 e η i ( 10 ) \hat{l}_j(\theta)=−\log(\hat{\phi}_j);\quad\hat{\phi}_j=\frac{e^{\eta_j−\log\gamma^∗}}{\sum^k_{i=1}e^{\eta_i−\log\gamma^∗_i}}=\frac{n^{1/4}_j e^{\eta_j}}{\sum^k_{i=1}n^{1/4}_i e^{\eta_i}}\qquad\qquad(10) l^j(θ)=log(ϕ^j);ϕ^j=i=1keηilogγieηjlogγ=i=1kni1/4eηinj1/4eηj(10)

    我们在补充材料中提供了该推论的证明概要。注意到与 Eqn. 4 相比,我们有一个额外的常数 1 / 4 1/4 1/4。我们通过实验发现,将 1 / 4 1/4 1/4 设置为 1 1 1 会得到最佳结果,这可能表明 Eqn. 8 不一定是紧的。至此,多类 Softmax 回归的标签分布偏移和泛化界引导我们得到相同的损失形式:Eqn. 4。

3.2 Meta Sampler

  • 重采样(Re-sampling)

    • 尽管平衡 Softmax 适应了标签分布的偏移,但在给定具有极端不平衡数据分布的大型数据集的情况下,优化过程仍然具有挑战性。
      • 例如,在 LVIS 中,当香蕉类(banana class)出现数千次时,诱饵类(bait class)可能只出现一次,这使得由于样本率低,诱饵类难以对模型训练做出贡献。
      • 通常采用重新采样来缓解这个问题,通过在每次训练批次中增加少数类别样本的数量。
    • 最近的工作表明,Softmax 回归的全局最小值与 mini-batch 采样过程无关。我们在补充材料中的可视化确认了这一发现。因此,在数据分布极不平衡的情况下,一个合适的重新采样策略可以简化平衡 Softmax 的优化过程。
  • 过度平衡(Over-balance)

    • 类别平衡采样器(Class-balanced sampler,CBS)是一种常见的重新采样策略。CBS 在一个 mini-batch 中平衡每个类的样本数量。它有效地帮助在解耦训练设置中重新训练线性分类器。然而,在我们的实验中,我们发现简单地将 CBS 与平衡 Softmax 组合可能会降低性能

    • 组合性能下降原因分析:

      • 我们首先从理论上分析了性能下降的原因。当类 j j j 的线性分类器权重 θ j \theta_j θj 收敛时,即 ∑ s = 1 B ∂ L ( s ) ∂ θ j = 0 \sum^B_{s=1}\frac{\partial L^{(s)}}{\partial\theta_j}=0 s=1BθjL(s)=0,我们应该有:
        ∑ s = 1 B ∂ L ( s ) ∂ θ j = ∑ s = 1 B / k f ( x y = j ( s ) ) ( 1 − ϕ ^ j ( s ) ) − ∑ i ≠ j k ∑ s = 1 B / k f ( x y = i ( s ) ) ϕ ^ j ( s ) = 0 , ( 11 ) \sum^B_{s=1}\frac{\partial L^{(s)}}{\partial\theta_j}=\sum^{B/k} _{s=1}f(x^{(s)}_{y=j})(1−\hat{\phi}^{(s)}_j)−\sum^k_{i\ne j}\sum^{B/k}_{s=1}f(x^{(s)}_{y=i})\hat{\phi}^{(s)}_j=0,\qquad(11) s=1BθjL(s)=s=1B/kf(xy=j(s))(1ϕ^j(s))i=jks=1B/kf(xy=i(s))ϕ^j(s)=0,(11)
        其中 B B B 是批量大小, k k k 是类别数量。通过 CBS 确保每个类的样本数量为 B / k B/k B/k。我们注意到 ϕ ^ j \hat{\phi}_j ϕ^j,平衡 Softmax 的输出,对每个类的重要性施加了一个变化且偏向少数类的效应。

      • 我们使用一个极端情况来演示这种效应。当分类损失收敛到 0 0 0 时,正确类的条件概率 ϕ ^ y \hat{\phi}_y ϕ^y 预期会接近 1 1 1。对于类 j j j 的任何正样本 x + x^+ x+ 和负样本 x − x^− x,我们有 ϕ ^ j ( x + ) ≈ ϕ j ( x + ) \hat{\phi}_j(x^+)\approx\phi_j(x^+) ϕ^j(x+)ϕj(x+) ϕ ^ j ( x − ) ≈ n j n i ϕ j ( x − ) \hat{\phi}_j(x^−)\approx\frac{n_j}{n_i}\phi_j(x^−) ϕ^j(x)ninjϕj(x),当 ϕ ^ y → 1 \hat{\phi}_y\to1 ϕ^y1​ 时。方程式 11 可以重写为

        1 n j 2 E ( x + , y = j ) ∼ D t r a i n [ f ( x + ) ( 1 − ϕ j ) ] − ∑ i ≠ j k 1 n i 2 E ( x − , y = i ) ∼ D t r a i n [ f ( x − ) ϕ j ] ≈ 0 ( 12 ) \frac{1}{n^2_j}\mathbb{E}_{(x^+,y=j)}\sim D_{train}[f(x^+)(1−\phi_j)]−\sum^k_{i\ne j}\frac{1}{n^2_i}\mathbb{E}_{(x^−,y=i)}\sim D_{train}[f(x^−)\phi_j]\approx0\qquad(12) nj21E(x+,y=j)Dtrain[f(x+)(1ϕj)]i=jkni21E(x,y=i)Dtrain[f(x)ϕj]0(12)

        其中 D t r a i n D_{train} Dtrain 是训练集。方程式 12 的正式推导在补充材料中给出。与反向损失权重,即对于类 j j j 1 / n j 1/n_j 1/nj 相比,将平衡 Softmax 与 CBS 组合导致了过度平衡问题,即对于类 j j j 1 / n j 2 1/n^2_j 1/nj2,这偏离了最优分布。

    • 尽管重新采样不会影响全局最小值,但一个过度平衡且由尾部类别主导的优化过程可能会导致偏爱少数类的局部最小值。此外,平衡 Softmax 在优化过程中的效果取决于模型的输出,这使得手动设计一个重新采样策略变得不可行。

  • 元采样器(Meta Sampler)

    • 元采样器:

      为了解决 CBS 的过度平衡问题,我们引入了元采样器(Meta Sampler),这是基于元学习的 CBS 的可学习版本,它明确地学习最优的样本率。我们首先定义了从数据集 D D D 中采样得到的经验损失,

      • 对于标准的 Softmax 为 L D ( θ ) = E ( x , y ) ∼ D [ l ( θ ) ] L_D(\theta)=\mathbb{E}_{(x,y)}\sim_D[l(\theta)] LD(θ)=E(x,y)D[l(θ)]
      • 对于平衡 Softmax 为 L ^ D ( θ ) = E ( x , y ) ∼ D [ l ^ ( θ ) ] \hat{L}_D(\theta)=\mathbb{E}_{(x,y)}\sim_D[\hat{l}(\theta)] L^D(θ)=E(x,y)D[l^(θ)],其中 l ^ ( θ ) \hat{l}(\theta) l^(θ) 如方程式 4 前所定义。
    • 双层元学习策略:

      • 为了估计不同类的最优样本率,我们采用了一种双层元学习策略:我们在内层循环中更新样本分布 π ψ \pi_\psi πψ 的参数 ψ \psi ψ,在外层循环中更新分类器参数 θ \theta θ
        π ψ ∗ = arg ⁡ min ⁡ ψ L D m e t a ( θ ∗ ( π ψ ) ) s . t . θ ∗ ( ϕ ψ ) = arg ⁡ min ⁡ θ L ^ D q ( x , y ; ϕ ψ ) ( θ ) , ( 13 ) \pi^∗_\psi=\arg\min_\psi L_{D_{meta}}(\theta^∗(\pi_\psi))\quad s.t.\quad\theta^∗(\phi_\psi)=\arg\min_\theta\hat{L}_{D_{q(x,y;\phi_\psi)}}(\theta),\qquad(13) πψ=argψminLDmeta(θ(πψ))s.t.θ(ϕψ)=argθminL^Dq(x,y;ϕψ)(θ),(13)

        • 参数列表:
          • 其中 π ψ j = p ( y = j ; ψ ) \pi^j_\psi=p(y=j;\psi) πψj=p(y=j;ψ) 是类 j j j 的样本率,
          • D q ( x , y ; ϕ ψ ) D_{q(x,y;\phi_\psi)} Dq(x,y;ϕψ) 是具有类样本分布 π ψ \pi_\psi πψ 的训练集,
          • D m e t a D_{meta} Dmeta 是我们引入来监督内层循环优化的元集。
      • 我们通过从训练集 D t r a i n D_{train} Dtrain 中进行类别平衡采样创建元集。经验上,我们发现这对于内层循环优化来说已经足够。

      • 这种双层优化策略的直觉是:我们希望学习最佳的样本分布参数 ψ \psi ψ,使得网络在参数化 θ \theta θ 的条件下,在元数据集 D m e t a D_{meta} Dmeta 上,使用来自 π ψ \pi_\psi πψ 的样本进行训练时,能够输出最佳性能。

    • 流程:

      我们首先计算每个实例的样本率 ρ i = π ψ c ( i ) / n c ( i ) \rho_i=\pi^{c(i)}_\psi/n^{c(i)} ρi=πψc(i)/nc(i),其中 c ( i ) c(i) c(i) 表示实例 i i i 的类别, n c ( i ) n^{c(i)} nc(i) 是该类别的样本数量,并从一个参数化的多项式分布 ρ \rho ρ 中采样一个训练批次 B ψ B_\psi Bψ。然后,我们在元学习设置中优化模型,

      1. 根据分布 π ψ \pi_\psi πψ 采样一个 mini-batch B ψ B_\psi Bψ,并执行一步梯度下降,得到一个由 θ ~ \tilde{\theta} θ~ 参数化的替代模型,通过 θ ~ ← θ − ∇ θ L ^ B ψ ( θ ) \tilde{\theta}\gets\theta−\nabla_\theta\hat{L}_{B_\psi}(\theta) θ~θθL^Bψ(θ)
      2. 计算替代模型在元数据集 D m e t a D_{meta} Dmeta 上的 L D m e t a ( θ ~ ) L_{D_{meta}}(\tilde{\theta}) LDmeta(θ~) 并优化样本分布参数 ψ ← ψ − ∇ ψ L D m e t a ( θ ~ ) \psi\gets\psi−\nabla_\psi L_{D_{meta}}(\tilde{\theta}) ψψψLDmeta(θ~) 使用带有 Softmax 的标准交叉熵损失。
      3. 使用平衡 Softmax 更新模型参数 θ ← θ − ∇ θ L ^ B ψ ( θ ) \theta\gets\theta−\nabla_\theta\hat{L}_{B_\psi}(\theta) θθθL^Bψ(θ)

      然而,从离散分布中采样本质上是不可微分的。为了允许对采样过程进行端到端训练,在形成 mini-batch B ψ B_\psi Bψ 时,我们应用了 Gumbel-Softmax 重参数化技巧。详细的解释可以在补充材料中找到。

Section 4 Experiments

4.1 Exprimental Setup

  • 数据集:

    我们在长尾图像分类数据集上进行了实验,包括 CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT 和 Places-LT ,以及一个长尾实例分割数据集 LVIS。我们将数据集的不平衡因子定义为最大类别的训练实例数除以最小类别的训练实例数。数据集的详细信息在表 1 中给出。

    在这里插入图片描述

    • 图片注解:表 1:长尾数据集的详细信息。对于 CIFAR-10 和 CIFAR-100,我们报告了不同不平衡因子的结果。
  • 评估设置:

    • 对于分类任务,在长尾数据集上训练后,我们在相应的平衡测试/验证数据集上评估模型,并报告 top-1 准确率。
    • 我们还报告了三个类别集的准确率:Many-shot(超过 100 张图像)、Medium-shot(20 ∼ 100 张图像)和 Few-shot(少于 20 张图像)。
    • 请注意,在小数据集上,即 CIFAR-LT 10/100,结果往往显示出较大的方差,我们在 3 次重复实验下报告了平均值和标准误差。
    • 我们在补充材料中展示了长尾数据集生成的详细信息。对于 LVIS,我们使用官方的训练和测试划分。报告了 COCO 风格的平均精度(AP),包括边界框和实例掩膜。我们的实现细节可以在补充材料中找到。

4.2 Long-Tailed Image Classification

  • 我们在表 2 和表 3 中展示了长尾图像分类的结果。

    在这里插入图片描述

    • 图片注解:表 2:CIFAR-10/100-LT 的 Top 1 准确率。
      • Softmax: 使用 Softmax 的标准交叉熵损失。
      • CBW: 类别平衡加权。
      • CBS: 类别平衡采样。
      • LDAM Loss: 不带 DRW 的 LDAM 损失。
      • Focal Loss, Class Balanced Loss, LDAM Loss 和 Equalization Loss 的结果使用他们在原始论文中报告的最优超参数复现。
      • BALMS 通常优于现有技术水平(SOTA)方法,特别是在不平衡因子较高时。
      • 注意,对于所有比较方法,我们复现的准确率高于他们在原始论文中的报告。与他们在原始论文中报告的结果的比较在补充材料中提供。

    在这里插入图片描述

    • 图片注解:表 3:ImageNet-LT 和 Places-LT 的 Top 1 准确率。我们在 ImageNet-LT 上展示了使用 ResNet-10 的结果,在 Places-LT 上使用了 ImageNet 预训练的 ResNet-152。基准结果来自原始论文。BALMS 通常优于最先进的模型。
  • 在所有数据集上,与所有端到端训练和分离训练方法相比,BALMS 实现了最先进(SOTA)的性能。特别是,我们注意到在两种情况下,BALMS 都显示出明显的优势:

    • 当不平衡因子很高时。例如,在 CIFAR-10 上的不平衡因子为 200 时,BALMS 的表现比最先进的方法 LWS 高出 3.4%。
    • 当数据集很大时。在相对较小的数据集 ImageNet-LT 上,BALMS 与 cRT 的性能相当,但在更大的数据集 Places-LT 上,BALMS 显著优于 cRT。
  • 此外,我们研究了所提出的平衡 Softmax 相对于标准 Softmax 和用于长尾问题的最先进损失函数 EQL 的鲁棒性。我们在图 1 中可视化了在不同的不平衡因子下,测试集上不同损失下每个类的分数之和,即边缘似然 p ( y ) p(y) p(y)。平衡 Softmax 在不同的不平衡因子下明显给出了更平衡的似然。

    在这里插入图片描述

    • 图片注解:图 1:CIFAR-100-LT 上的实验。x 轴是训练样本递减的类别标签,y 轴是测试集上的边缘似然 p ( y ) p(y) p(y)。实验中使用了端到端训练。与 Softmax 基线和最先进的方法 Equalization Loss (EQL) 相比,平衡 Softmax 在高不平衡因子下更为稳定。
  • 此外,我们在图 2 中展示了元采样器(Meta Sampler)对 p ( y ) p(y) p(y) 的影响。与 CBS 相比,元采样器显著减轻了过度平衡的问题。

    在这里插入图片描述

    • 图片注解:图 2:在测试集上使用 Meta Sampler 和 CBS 的 p(y) 可视化。x 轴是训练样本递减的类别标签,y 轴是测试集上的边缘似然 p(y)。结果是在 CIFAR-10/100-LT 上,不平衡因子为 200。实验中使用了解耦训练。
      • BS:平衡 Softmax。
      • BS + CBS 明显偏向于尾部类别,尤其是在 CIFAR-100-LT 上。
      • 与 BS + CBS 相比,BS + Meta Sampler 有效地减轻了过度平衡的问题。

4.3 Long-Tailed Instance Segmentation

  • LVIS 数据集是视觉社区中最具有挑战性的数据集之一。如表 1 所示,与其它数据集相比(26148 比小于 1000),该数据集的不平衡因子要高得多,并且包含了许多非常少见的类别。与相对较小且不平衡因子较低的图像分类数据集相比,LVIS 数据集更能可靠地评估长尾学习方法的性能。

  • 由于一个图像可能包含来自几个类别的多个实例,我们在这里使用元重加权器(Meta Reweighter),这是元采样器(Meta Sampler)的重新加权版本,而不是元采样器。如表 4 所示,BALMS 在所有方法中取得了最佳结果,并且与其他方法相比有显著优势,特别是在稀有类别中,BALMS 实现了平均精度 19.6,而其它最佳方法仅为 14.6。

    在这里插入图片描述

    • 图片注解:表 4:LVIS 数据集的结果。
      • APm 表示掩膜的平均精度。
      • APb 表示边界框的平均精度。
      • APf、APc 和 APr 分别表示在频繁类、常见类和稀有类上的掩膜平均精度。
      • † \dagger :表示平衡 Softmax 的多重二元逻辑回归变体,更多细节请参阅补充材料。
      • BALMS 在 LVIS 数据集的高不平衡因子下显著优于现有技术水平(SOTA)模型。所有比较方法在原始论文中的 AP 值均高于复现的结果。
  • 结果表明,通过平衡 Softmax 函数和学习 Meta Reweighter,BALMS 能够提供更平衡的梯度,并解决极其不平衡的长尾任务。

  • 特别是,LVIS 是由复杂日常场景的图像组成的,包含自然长尾类别。因此,我们相信 BALMS 适用于真实世界中的长尾视觉识别挑战。

4.4 Component Analysis

  • 我们在 CIFAR-10/100-LT 数据集上进行了全面的组件分析,以进一步了解 BALMS 中每个提议组件的效果。结果在表 5 中展示。

    在这里插入图片描述

    • 图片注解:表 5:在 CIFAR-10/100-LT 上的组件分析。
      • CBS:类别平衡采样。
      • DT:没有 CBS 的解耦训练。
      • MS:元采样器。
      • MR:元重权器。
      • Balanced Softmax 1 4 \frac{1}{4} 41:方程式 10 中的损失变体。
      • 平衡 Softmax 和元采样器都对最终性能有贡献。
  • 平衡 Softmax

    • 比较 (1)、(2) 与 (3),以及 (5)、(8) 与 (10),我们观察到平衡 Softmax 在端到端训练和分离训练设置下都能明显提高整体性能。它成功地适应了训练和测试之间的分布偏移。
    • 特别是,我们观察到平衡 Softmax 1 4 \frac{1}{4} 41(我们在方程式 10 中推导得出)无法产生理想的结果,与我们在方程式 4 中提出的平衡 Softmax 相比。
  • 元采样器

    • 从 (6)、(7)、(9) 和 (10) 中,我们观察到与没有元采样器以及元采样器的变体相比,元采样器通常会提高性能。我们注意到,随着不平衡因子的增加,性能提升更大,这与我们在 LVIS 实验中的观察结果一致。
    • 在 (9) 和 (10) 中,元采样器通常优于元重权器,表明离散采样过程提供了更有效的优化过程。
    • 通过比较 (7) 和 (10),我们可以看到元采样器解决了我们在第 3.2 节中讨论的过度平衡问题。
  • 解耦训练

    • 比较 (2) 与 (4) 和 (3) 与 (6),解耦训练方案和平衡 Softmax 是两个正交的组件,我们可以同时从两个组件中受益。
  • 18
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值