论文阅读:《Bag of Tricks for Long-Tailed Visual Recognition with Deep Convolutional Neural Networks》

本文研究了深度卷积神经网络在处理长尾分布视觉识别任务中的技巧,包括重加权、重采样、混合训练和两阶段训练。通过大量实验,作者发现输入混合和基于类激活映射的采样方法能有效提升长尾数据集的识别准确性,提出了一个最佳技巧组合——技巧包,其中包括输入混合、基于CAM的平衡采样DRS和混合训练后的微调,可在多个长尾基准数据集上取得显著的性能提升。
摘要由CSDN通过智能技术生成

基于深度卷积神经网络的长尾视觉识别技巧包

摘要

近年来,挑战性长尾分布上的视觉识别技术取得了很大的进展,主要基于各种复杂的范式(如元学习)。除了这些复杂的方法外,对训练程序的简单改进也有一定的贡献。
这些改进(也称为技巧)虽小但很有效,例如调整数据分布或丢失函数。然而,不同的技巧可能会相互冲突。如果用户使用这些与长尾相关的技巧不当,可能会导致识别准确度比预期的更差。不幸的是,在文献中还没有关于这些技巧的科学指导。
本文首先收集了已有的长尾视觉识别技巧,然后进行了广泛系统的实验,给出了详细的实验指导,并获得了这些技巧的有效组合
此外,我们还提出了一种基于类激活映射的长尾识别数据增强方法,该方法与重采样方法友好结合,取得了良好的结果。
通过科学地组合这些技巧,我们可以在四个长尾基准数据集上超越最先进的方法,包括ImageNet-LT和iNaturalist 2018。我们的代码是开源的,可以在https://github.com/zhangyongshun/BagofTricks-LT上找到。

Introduction

随着在平衡分布式数据集上训练卷积神经网络(cnn)的发展,计算机视觉已经取得了巨大的进步(Deng et al. 2009;Krizhevsky和Hinton 2009;Wah等人,2011)。但在现实场景中,大规模数据集(Zhou et al. 2017;V an Horn等人2018年;Lin等人2014年**;Wang et al. 2020)自然呈现出不平衡和长尾分布,少数类别(多数类别)占据了大部分数据,而大多数类别(少数类别)的代表性不足。在这些长尾数据集上训练的cnn识别精度很差,特别是对于代表性不足的少数群体**。
处理这种长尾分布在现实世界的应用中是必不可少的,例如对象检测(Lin et al. 2017;欧阳等人2016;Wang, Wang, and Wang 2020),实例分割(Wang et al. 2019;Gupta, Dollar和Girshick 2019),视觉识别(Zhang et al. 2017;Zhong et al. 2019;Cao et al. 2019;Cui et al. 2019)等。本文主要研究基本的长尾视觉识别问题。

近年来,长尾视觉识别受到越来越多的关注。属于不同范式的各种方法,如度量学习(Wang et al. 2018;Liu et al. 2019a;曹等人2019年),元学习(Liu等人2019b;彭等人2019;Jamal et al. 2020)和知识迁移(Wang, Ramanan, and Hebert 2017)已经成功地探索了长尾识别。
尽管这些方法在长尾数据集上带来了稳定的精度提高趋势,但它们往往对超参数具有很高的敏感性(Cao et al. 2019;Yan et al. 2019)或训练过程的高度复杂性(Wang, Ramanan, and Hebert 2017;Liu et al. 2019b;向、丁、汉2020)。此外,这些方法在现实世界的各种场景中难以有效应用
除了这些方法外,现有的长尾视觉识别训练技巧也发挥了重要作用,只是对普通的训练过程进行了简单的改进,如损失函数或数据采样策略的调整。这些技巧很简单,但在识别准确性上却有很大的不同。然而,不同的技巧在训练过程中,如果使用不当,可能会互相伤害。例如,重新取样(Buda, Maki和Mazurowski 2018;Japkowicz和Stephen, 2002)和重新加权(Mikolov等人,2013年;Cui et al. 2019)是缓解长尾分布不平衡的两种常用方法。重采样试图获得平衡的数据集,而重权则将权重分配给由类频率反转确定的类别。由于重新抽样和重新加权都试图扩大少数人类别的影响,同时应用重新加权和重新抽样将获得类似甚至比单独使用它们更差的准确性。

与重新加权和重新抽样类似,当我们应用两个或多个长尾效应相关的技巧时,最好能知道哪些技巧可以协同组合,哪些技巧可能与其他技巧相冲突。然而,文献中没有任何指导原则。虽然有几个关于类不平衡学习的良好调查(More 2016; Buda, Maki, and Mazurowski 2018; Japkowicz and Stephen 2002),但它们可以进一步组成深度学习时代的有效技巧。更重要的是,它们缺乏对一组长尾相关技巧进行定量组合和评估的综合实证研究。

在本文中,我们重点探讨了长尾视觉识别中常用的、容易装备的、对超参数不敏感的技巧。同时,我们进行了大量的实验,为未来的研究提供了有价值的实践指南。
这些与长尾相关的技巧被分成四个系列,即
重新加权、重新采样、混合训练和两阶段训练

特别是,我们将混杂训练(Zhang等人,2018;V erma等人,2019)加入到长尾相关技巧中,因为我们发现混杂训练在长尾视觉识别中能带来良好的效果特别是与重采样结合时
在每个技巧系列中,我们介绍了常用的技巧,并比较了长尾基准数据集的结果。此外,为了克服现有重采样方法中缺乏鉴别性信息的问题,我们提出了一种基于类激活图(CAM)的新型数据增强方法(Zhou等人,2016),它为两阶段训练量身定做,通过转移前景而保持背景不变来生成鉴别性图像。它可以与现有的重采样方法友好结合,并表现出优异的效果,被称为 “基于CAM的采样”。此外,我们还探讨了不同系列的技巧之间的冲突,以找到最佳的技巧组合,命名为技巧袋。表1显示了长尾CIFAR和两个大型数据集(如ImageNet-LT和iNaturalist 2018)的Top-1错误率,这表明与最先进的方法相比,我们的Bag有明显的准确性提高。

我们工作的主要贡献可以总结一下:

我们全面探讨了现有的简单的、对超参数不敏感的、与长尾有关的技巧,并为今后的研究提供了宝贵的实践指南。-

我们提

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值