论文阅读Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss

Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss

论文:链接: link

NIPS 2019

Abstract

当训练数据集存在严重的类不平衡时,深度学习算法的表现可能会很差,但测试标准需要对不太频繁的类进行良好的泛化。
我们设计了两种新的方法来提高这种情况下的性能。首先,我们提出了一个理论上的标签分布感知边际损失(LDAM),其动机是最小化基于边际的泛化边界。在训练过程中,这种损失取代了标准的交叉熵目标,并可以应用于先前的训练策略,如重加权或重采样类不平衡。其次,我们提出了一个简单而有效的训练计划,将重新加权推迟到初始阶段之后,允许模型学习初始表示,同时避免了与重新加权或重新抽样相关的一些复杂性。我们在几个基准视觉任务上测试了我们的方法,包括真实世界的不平衡数据集iNaturalist 2018。我们的实验表明,这两种方法中的任何一种都可以比现有的技术有所改进,它们的结合甚至可以获得更好的性能增益。

Introduction

现代真实大尺度数据集往往具有长尾标签分布[V an Horn and Perona, 2017, Krishna et al., 2017, Lin et al., 2014, Everingham et al., 2010, Guo et al., 2016, Thomee et al., 2015, Liu et al., 2019]。在这些数据集中,深度神经网络在较少代表的类上表现较差[He和Garcia, 2008, V an Horn和Perona, 2017, Buda等人,2018]。如果考试标准更多地强调少数类别,这尤其有害。例如,均匀标签分布的精度或所有类中的最小精度都是这种标准的例子。这是许多应用中常见的场景[Cao等人,2018,Merler等人,2019,Hinnefeld等人,2018],由于各种实际问题,如可转移到新领域,公平性等。学习的两种常见的方法长尾例子和重采样的数据权重损失SGD mini-batch中的示例(见[布达et al ., 2018年,黄et al ., 2016年,崔et al ., 2019年,他和加西亚,2008年,他和马,2013年,乔et al ., 2002)和引用其中)。他们都设计了一种预期更接近测试分布的训练损失,因此可以在频繁类和少数类的准确性之间实现更好的权衡。然而,由于我们对少数类的基本信息较少,而且所部署的模型往往庞大,因此对少数类的过度拟合似乎是改进这些方法的挑战之一。

我们建议将少数类的正则化程度比频繁类的正则化程度更高,从而在不牺牲模型拟合频繁类的能力的前提下,提高少数类的泛化误差。实现这个概念需要一个数据依赖或标签依赖的正则化器——与标准的2正则化不同,它不仅依赖于权重矩阵,还依赖于标签——来区分频繁类和少数类。对依赖数据的正则化器的理论理解是稀疏的(参见Wei和Ma, 2019, Nagarajan和Kolter, 2019, Arora等人,2018)。

我们将探索一个最简单和最容易理解的数据相关属性:训练示例的边界。鼓励较大的边际可以被视为正则化,作为标准的泛化误差边界(例如,[Bartlett等人,2017,Wei等人,2018]),依赖于所有例子中最小边际的倒数。受关于少数类的泛化问题的激励,我们转而研究每个类的最小边际,并得到每个类和统一标签的测试误差边界。2最小化所得到的边界可以在类的边界之间找到最优的平衡。图1给出了二进制分类的示例。
在这里插入图片描述
图1:对于线性可分分类器的二值分类,定义第i类的边缘γi为第i类数据到决策边界的最小距离。我们证明了均匀标签分布下的检验误差是由一个尺度为1 γ1√n1+ 1 γ2√n2的量所限制的。如这里所示,确定决策边界的方向将导致固定的γ1+ γ2,但是可以通过改变决策边界来优化γ1、γ2之间的权衡。如3.1节所推导的,最佳权衡是γi∝n−1/4 i,其中niis第i类的样本量。

受到这个理论的启发,我们设计了一个标签分布感知的损失函数,鼓励模型在每个类别的边际之间有最优的权衡。通过鼓励少数群体获得更大的利润,拟议损失扩大了现有的软利润损失[Wang et al., 2018a]。作为一种依赖于标签的正则化技术,我们的修正损失函数与重加权重采样方法正交。事实上,我们还设计了一个延迟的重新平衡优化过程,允许我们以更有效的方式将重新加权策略与我们的损失(或其他损失)结合起来。

总之,我们的主要贡献是:(1)我们设计了一个感知标签分布的损失函数,以鼓励少数类获得更大的利润;(2)我们提出了一个简单的延迟重平衡优化程序,以更有效地应用重加权;(iii)我们的实际实现显示了几个基准视觉任务的显著改进,如人工不平衡CIFAR和Tiny ImageNet [tin],以及真实世界的大规模不平衡数据集iNaturalist ’ 18 [V an Horn et al., 2018]。

2.Related Works

现有的不平衡数据集学习算法可分为两类:重采样算法和重加权算法。

重采样。有两种类型的重采样技术:over-sampling少数类和under-sampling频繁的类。不足采样的缺点是它丢弃了大量的数据,因此在数据极不平衡的情况下是不可行的。在很多情况下,过采样是有效的,但会导致少数类的过拟合。对于少数群体,更强的数据增强有助于缓解过拟合。

权重。成本敏感重加权为不同类别甚至不同样本分配(自适应)权重。普通方案按其频率的倒数对类别进行权重调整[Huang等人,2016,2019,Wang等人,2

  • 1
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值