BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition,CVPR 2020
核心思想
解耦分类网络的特征学习层和分类层。
问题
长尾识别:少数类别占据大部分数据,大多数类别样本数很少。
以前方法
类重新平衡(class re-balancing),可能损害表示学习的特征的表征能力。
重采样(re-sampling)或重加权(re-weighting)有效的原因是提升分类器的学习能力,但可能会导致过度拟合尾部数据,对整体数据分布拟合不足。
重新采样方法可能直接改变或反转原始分布。
[Mixup] Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, and David Lopez-Paz. mixup: Beyond empirical risk minimization. In ICLR, pages 1–13, 2018. 3, 6
为了解决上述问题,作者提出了一个统一的双边分支网络(BBN)模型来同时处理表示学习和分类器学习。
作者把深度网络的训练过程分为两个阶段,即分别进行表示学习和分类器学习。
数据集CIFAR
Alex Krizhevsky and Geoffrey Hinton. Learning multiple layers of features from tiny images. Technical report, Citeseer, 2009. 4, 10, 11
在CIFAR数据集上的观察
作者设计两阶段实验,分别学习模型的表示和分类。
第一阶段以交叉熵或RS/RW来训练特征提取网络,第二阶段固定第一阶段学习到的网络参数,训练分类器。
垂直方向上,固定一列特征,RS/RW始终比CE分类错误率低,说明该方法能提高分类器能力。
水平方向上,CE块错误率更低,说明加权或采样会损害特征学习的能力。
结论是RW/RS导致学习的深度特征的识别能力更差。
作者提出了BBN由两个分支组成,常规学习分支和再平衡分支。前者保持了数据原始分布来学习和识别,后者与反向采样器(reversed sampler)耦合,可对尾部数据建模。最后有一个累加分支来平衡两个阶段。
上分支采样器保持均匀采样,是为了维持特征学习,保持原有数据分布。反向采样器是根据样本出现频率逆着采样,即高频样本较小的采样权重。目的是为了减轻样本的不平衡,提升尾部类别的分类精确度。
下分支的反向采样器和特征加权聚合两个地方。
通过 f c f_c fc和 f r f_r fr来得到 z z z
z
=
α
W
c
T
f
c
+
(
1
−
α
)
W
r
T
f
r
z=\alpha W_c^Tf_c+(1-\alpha)W_r^Tf_r
z=αWcTfc+(1−α)WrTfr
对
z
z
z归一化
p
i
^
=
e
z
i
Σ
j
=
1
C
e
z
j
\hat{p_i}=\frac{e^{z_i}}{\Sigma_{j=1}^{C} e^{z_j}}
pi^=Σj=1Cezjezi
然后加权计算损失即可。
L
=
α
E
(
p
^
,
y
c
)
+
(
1
−
α
)
E
(
p
^
,
y
r
)
L=\alpha E(\hat{p},y_c)+(1-\alpha) E(\hat{p},y_r)
L=αE(p^,yc)+(1−α)E(p^,yr)
实验方法
作者提出了一种累积学习策略,通过控制两个分支产生的特征的权重和分类损失L来在双边分支之间转移学习重点。该策略旨在首先学习patterns,然后逐渐注意尾数据。 在训练阶段,传统学习分支的特征
f
c
f_c
fc将乘以α,再平衡分支的特征
f
r
f_r
fr将乘以1-α。
α
\alpha
α计算如下:
α
=
1
−
(
T
T
m
a
x
)
2
\alpha = 1- (\frac{T}{T_{max}})^2
α=1−(TmaxT)2
数据集:
Long-tailed CIFAR-10 and CIFAR-100
iNaturalist 2017 and iNaturalist 2018
SOTA方法
[LDAM] Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, and Tengyu Ma. Learning imbalanced datasets with labeldistribution-aware margin loss. In NeurIPS, pages 1–18, 2019.2, 3, 4, 5, 6, 7
[CB-Focal] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, and Serge Belongie. Class-balanced loss based on effective number of samples. In CVPR, pages 9268–9277, 2019. 2, 3, 4, 6, 7
实验配置
随机裁剪32*32, 水平翻转,以每条边填充4个像素。
resnet32作为backbone
200 epochs
batch_size = 128
SGD with momentum 0.9
weight decay
2
×
1
0
−
4
2 \times 10^{-4}
2×10−4
学习率0.1
120个epoch 和160个epoch时衰减0.01
Ablation studies
作者对再平衡分支中不同的采样器进行实验。
统一采样器保持原始的长尾分布。
结论:反向采样器比统一均衡采样器性能更好。
BBN的再平衡分支,通过反向采样器的共享信息来关注尾部类。
不同的累加策略。与进度相关的策略根据训练时期的数量来调整α,例如线性衰减,余弦衰减等。与进度相关的策略包括权重相等或由离散分布生成(例如,β分布)。
结论:首先应学习传统的学习分支,然后再学习再平衡分支。 在这些策略中,生成α的最佳方法是提出的抛物线衰减方法。