论文阅读Adaptive Logit Adjustment Loss for Long-Tailed Visual Recognition

AAAI 2022
论文:https://arxiv.org/pdf/2104.06094v2.pdf

摘要

现实世界中的数据往往呈现出长尾标签分布,这对视觉识别中的神经网络训练提出了巨大挑战。
现有方法主要从数据量的角度来解决这个问题即每个类中的样本数具体来说,他们更关注尾类,比如对 logit 进行更大的调整。
然而,在训练过程中,数据的数量和难度是两个相互交织、同样至关重要的问题。对于一些尾类来说,它们的实例的特征是鲜明的,有判别力的,也能带来满意的准确率;对于一些头类,虽然有足够的样本,但与其他类的语义相似度高,缺乏判别特征会带来不好的准确性。
基于这些观察,我们提出了自适应 Logit 调整损失 (ALA Loss) 以将自适应调整项应用于 logit。
自适应调整项由两个互补因素组成:
1)数量因素,更关注尾类,
2)难度因素,在训练过程中自适应地更关注难实例。
难度因子可以缓解尾部但容易的实例的过度优化和头部但困难的实例的优化不足。这两个因素的协同作用不仅可以进一步提高尾部类的性能,还可以提高头部类的准确性。与以往只关注数据量的 logit 调整方法不同,ALA Loss 从更全面、细粒度和自适应的角度解决了长尾问题。广泛的实验结果表明,我们的方法在具有挑战性的识别基准上实现了最先进的性能,包括 ImageNet-LT、iNaturalist 2018 和 Places-LT。

1 Introduction

随着深度学习的发展,计算机视觉社区见证了视觉识别在经典基准上的巨大突破,如ImageNet(Russakovsky et al.2015)、COCO(Lin et al.2014)和Places(Zhou et al.2017)。与这些人工平衡的数据集相比,真实场景通常服从长尾标签分布少数类别(头部类别)包含大部分数据,而大多数类别(尾部类别)占用的样本相对较少(Liu等人2019年;Gupta、Dollar和Girshick 2019年)。不幸的是,面对这种不平衡的分布,发现这些神经网络的性能显着下降,尤其是在尾类上(Cao et al. 2019; Kang et al. 2019; Liu et al. 2019)。

大多数现有的长尾视觉识别方法通过强调尾类的优化来解决这个问题。 这些工作可以大致分为三种范式:重新采样训练数据(Buda、Maki 和 Mazurowski 2018;Chawla 等人 2002;Wallace 等人 2011),重新加权损失公式的系数(Menon 等人 . 2013; Cui et al. 2019; Ren et al. 2018) 并调整 logit (Cao et al. 2019; Tan et al. 2020; Menon et al. 2020)。

大多数现有的长尾视觉识别方法通过强调尾类的优化来解决这个问题。这些工作可以大致分为三种范式:

重新采样训练数据(Buda、Maki 和 Mazurowski 2018;Chawla 等人 2002;Wallace 等人 2011),
重新加权损失公式的系数(Menon 等人. 2013; Cui et al. 2019; Ren et al. 2018)
调整 logit (Cao et al. 2019; Tan et al. 2020; Menon et al. 2020)。

数据重采样提高了尾类的采样率并为头类减少它。损失重新加权通过增加尾部类的权重和降低头部类的权重来引导网络更多地关注尾部样本。 Logit 调整方法从 logit 中减去一个正调整项。大多数现有的长尾视觉识别方法通过强调尾类的优化来解决这个问题。这些工作可以大致分为三种范式:重新采样训练数据(Buda、Maki 和 Mazurowski 2018;Chawla 等人 2002;Wallace 等人 2011),重新加权损失公式的系数(Menon 等人. 2013; Cui et al. 2019; Ren et al. 2018) 并调整 logit (Cao et al. 2019; Tan et al. 2020; Menon et al. 2020)。数据重采样增加了尾类的采样率并降低了头类的采样率。损失重新加权通过增加尾部类的权重和降低头部类的权重来引导网络更多地关注尾部样本。 Logit 调整方法从 logit 中减去一个正调整项。该术语通常与每个类的频率相反,这鼓励对尾类进行更多优化。 他们都是从数据量的角度来解决长尾问题,有着相同的设计理念:多强调尾类,少强调头类。 然而,根据我们的观察,数据量是一个必要但不充分的条件。

如图 1 所示,我们在 ImageNet-LT (Liu et al. 2019) 上绘制了每个类的准确率,根据训练实例的数量分为少数 (1-20)、中等 (20-100) 和很多(> 100)类。值得注意的是,虽然总体上准确率和数据量之间存在一定的相关性,但从各个类的角度来看并不是绝对的。例如,“Appenzeller”类和“Black Swan”类分别属于头类和尾类。对于“黑天鹅”,尽管样本相对较少,但准确率很高。搜索了所有的鸟群后,我们发现黑天鹅的特征是如此鲜明和有辨识度,比如黑色的羽毛、细长的脖子和红色的喙,很容易区分。然而,对于“Appenzeller”来说,即使有足够的样本,仍然会导致准确率低下。与其他类(如“EntleBucher”)的模糊属性和高语义相似性降低了其在特征空间中的可区分性,从而大大增加了错误分类的风险。上述观察表明,对于尾部但容易的类(如“黑天鹅”)不需要更大的正则化,但对于头部但

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值