论文笔记:BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition

BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition,CVPR 2020

核心思想

解耦分类网络的特征学习层和分类层。

问题

长尾识别:少数类别占据大部分数据,大多数类别样本数很少。

以前方法
类重新平衡(class re-balancing),可能损害表示学习的特征的表征能力。

重采样(re-sampling)或重加权(re-weighting)有效的原因是提升分类器的学习能力,但可能会导致过度拟合尾部数据,对整体数据分布拟合不足。
重新采样方法可能直接改变或反转原始分布。

[Mixup] Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, and David Lopez-Paz. mixup: Beyond empirical risk minimization. In ICLR, pages 1–13, 2018. 3, 6

为了解决上述问题,作者提出了一个统一的双边分支网络(BBN)模型来同时处理表示学习和分类器学习。
作者把深度网络的训练过程分为两个阶段,即分别进行表示学习和分类器学习。

数据集CIFAR
Alex Krizhevsky and Geoffrey Hinton. Learning multiple layers of features from tiny images. Technical report, Citeseer, 2009. 4, 10, 11

在这里插入图片描述

在CIFAR数据集上的观察
作者设计两阶段实验,分别学习模型的表示和分类。
第一阶段以交叉熵或RS/RW来训练特征提取网络,第二阶段固定第一阶段学习到的网络参数,训练分类器。
垂直方向上,固定一列特征,RS/RW始终比CE分类错误率低,说明该方法能提高分类器能力
水平方向上,CE块错误率更低,说明加权或采样会损害特征学习的能力
结论是RW/RS导致学习的深度特征的识别能力更差。

作者提出了BBN由两个分支组成,常规学习分支和再平衡分支。前者保持了数据原始分布来学习和识别,后者与反向采样器(reversed sampler)耦合,可对尾部数据建模。最后有一个累加分支来平衡两个阶段。

在这里插入图片描述

上分支采样器保持均匀采样,是为了维持特征学习,保持原有数据分布。反向采样器是根据样本出现频率逆着采样,即高频样本较小的采样权重。目的是为了减轻样本的不平衡,提升尾部类别的分类精确度。
下分支的反向采样器和特征加权聚合两个地方。

通过 f c f_c fc f r f_r fr来得到 z z z

z = α W c T f c + ( 1 − α ) W r T f r z=\alpha W_c^Tf_c+(1-\alpha)W_r^Tf_r z=αWcTfc+(1α)WrTfr
z z z归一化
p i ^ = e z i Σ j = 1 C e z j \hat{p_i}=\frac{e^{z_i}}{\Sigma_{j=1}^{C} e^{z_j}} pi^=Σj=1Cezjezi
然后加权计算损失即可。
L = α E ( p ^ , y c ) + ( 1 − α ) E ( p ^ , y r ) L=\alpha E(\hat{p},y_c)+(1-\alpha) E(\hat{p},y_r) L=αE(p^,yc)+(1α)E(p^,yr)

实验方法

作者提出了一种累积学习策略,通过控制两个分支产生的特征的权重和分类损失L来在双边分支之间转移学习重点。该策略旨在首先学习patterns,然后逐渐注意尾数据。 在训练阶段,传统学习分支的特征 f c f_c fc将乘以α,再平衡分支的特征 f r f_r fr将乘以1-α。 α \alpha α计算如下:
α = 1 − ( T T m a x ) 2 \alpha = 1- (\frac{T}{T_{max}})^2 α=1(TmaxT)2

在这里插入图片描述

数据集:
Long-tailed CIFAR-10 and CIFAR-100
iNaturalist 2017 and iNaturalist 2018

SOTA方法
[LDAM] Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, and Tengyu Ma. Learning imbalanced datasets with labeldistribution-aware margin loss. In NeurIPS, pages 1–18, 2019.2, 3, 4, 5, 6, 7

[CB-Focal] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, and Serge Belongie. Class-balanced loss based on effective number of samples. In CVPR, pages 9268–9277, 2019. 2, 3, 4, 6, 7

实验配置
随机裁剪32*32, 水平翻转,以每条边填充4个像素。
resnet32作为backbone
200 epochs
batch_size = 128
SGD with momentum 0.9
weight decay 2 × 1 0 − 4 2 \times 10^{-4} 2×104
学习率0.1
120个epoch 和160个epoch时衰减0.01

在这里插入图片描述
在这里插入图片描述

Ablation studies
作者对再平衡分支中不同的采样器进行实验。
统一采样器保持原始的长尾分布。

结论:反向采样器比统一均衡采样器性能更好。
BBN的再平衡分支,通过反向采样器的共享信息来关注尾部类。

不同的累加策略。与进度相关的策略根据训练时期的数量来调整α,例如线性衰减,余弦衰减等。与进度相关的策略包括权重相等或由离散分布生成(例如,β分布)。

结论:首先应学习传统的学习分支,然后再学习再平衡分支。 在这些策略中,生成α的最佳方法是提出的抛物线衰减方法。

在这里插入图片描述
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值