论文分享 MetaBalance: High-Performance Neural Networks for Class-Imbalanced Data

摘要

类不平衡数据,其中一些类包含比其他类多得多的样本,在现实世界的应用程序中无处不在。处理类不平衡的标准技术通常通过对重新加权损失或重新平衡数据进行训练来工作。

不幸的是,针对此类目标训练过度参数化的神经网络会导致少数类数据的快速记忆。为了避免这个陷阱,我们利用元学习,它同时使用“外环(outer-loop)”和“内环(inner-loop)”损失,每个损失都可以使用不同的策略进行平衡。我们在图像分类、信用卡欺诈检测、贷款违约预测和具有严重不平衡数据的面部识别任务上评估我们的方法 MetaBalance。我们发现 MetaBalance 优于旨在处理类不平衡的各种流行策略,尤其是在少数类样本很少的场景中。

2.1 LEARNING ON CLASS IMBALANCED DATA

处理类不平衡的现有方法可以大致分为三组:增加少数类样本数量的重采样方法、减少多数类样本的方法以及修改训练例程以将模型的重点转移到训练期间的少数样本。

过采样

侧重于从可用的不平衡数据中生成新的少数类样本。一种简单的方法是简单地从少数类中复制点,但是这不会产生关于少数类的新信息,并且已知会导致对过采样示例的严重过度拟合。为了解决这个问题,Chawla 等人。 (2002) 提出了 SMOTE,它通过在少数类别的现有观测值之间进行线性插值来生成独特的少数样本。对 SMOTE 进行了一些改进,目的是生成额外的训练数据,从而在训练后产生更好的决策边界(Han et al., 2005; Nguyen et al., 2011; He et al., 2008)。例如,SVMSmote 沿支持向量机找到的边界生成新的少数示例(Han et al., 2005)。 SMOTE 及其修改适用于表格数据,而不适用于图像等高维数据。然而,一些旨在防止图像过度拟合的强大数据增强技术以类似的方式运行。例如,mixup 通过对数据集中的图像进行凸组合来生成新图像(Zhang 等人,2017 年),而 CutMix 通过从一张图像中剪切一个补丁并将其插入另一个图像来混合两张图像(Y un 等人,2019 年) )。这两种方法都通过对混合图像的标签进行加权平均来为新样本生成标签。 SMOTE 与 mixup 密切相关,主要区别在于 SMOTE 只在少数类中进行混合,而 mixup 将所有类之间的样本混合在一起。金等人。 (2020)建议通过应用对抗性扰动将多数样本转换为少数样本,并以此利用多数信息的多样性。最后,越来越多的工作提出 GAN 从少数类中生成真实样本,但训练 GAN 很困难,而且这些模型因在不同数据集上表现不佳或记忆其训练数据而臭名昭著(Shamsolmoali 等人,2020;Deepshikha & Naman,2020;Ali-Gombe & Elyan,2019;Mullick 等人,2019)。

  1. Hongyi Zhang, Moustapha Cisse, Y ann N Dauphin, and David Lopez-Paz. mixup: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017.
  2. Sangdoo Y un, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Y oungjoon Y oo.Cutmix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 6023–6032, 2019.
  3. Jaehyung Kim, Jongheon Jeong, and Jinwoo Shin. M2m: Imbalanced classification via major-to-
    minor translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
    Recognition, pp. 13896–13905, 2020.
  4. Jun Shu, Qi Xie, Lixuan Yi, Qian Zhao, Sanping Zhou, Zongben Xu, and Deyu Meng. Meta-
    weight-net: Learning an explicit mapping for sample weighting. arXiv preprint arXiv:1902.07379,

欠采样

是处理类不平衡的另一种常用技术。与添加少数类数据的过采样相比,欠采样从多数样本中移除以形成平衡的数据集。随机删除数据会导致大多数类中的关键数据点丢失,一些作品提出了巧妙选择样本的方法,这些样本可以在不丢失关于多数类的重要信息的情况下被删除(Lin 等人,2017b;Wilson,1972;Tomek 等人。 , 1976)。 Wilson (1972) 提出了一种编辑最近邻算法 (ENN),其中删除了与 KNN 算法的预测不一致的多数类数据点。另一种方法是聚类质心,通过用 k-means 算法发现的多数类的聚类替换它们各自的质心来进行欠采样(Lin 等人,2017b)。当数据非常高维时,这些方法会出现问题,因为最近邻分类器在这种情况下往往会变得无信息(例如,'2 距离通常不是衡量图像之间相似性的好方法)。此外,欠采样会阻止用户利用大量的多数类数据来学习更好的特征表示。

分类器级方法

修改训练例程以强调少数类样本。此类别中存在几种不同的技术。例如,成本敏感学习通过重新加权损失或改变学习率来改变少数类点的损失(Elkan,2001;Kukar 等人,1998;Cui 等人,2019;Lin 等人)。等人,2017a)。直观地说,对训练样本应用不同的权重类似于以适当的频率对这些数据点进行过采样。其他分类器级别的方法包括正则化器,它们可以促进少数类数据的较大边际或对在小型平衡数据集上测量的“平衡性能”施加限制(Sangalli 等人,2021;Huang 等人,2016;Li 等人。 , 2019)。最后,还有一些后处理方法旨在重新调整分类器输出的分数以实现更好的性能(Richard & Lippmann, 1991; Chan et al., 2019)。

  1. Yin Cui, Menglin Jia, Tsung-Yi Lin, Y ang Song, and Serge Belongie. Class-balanced loss based on effective number of samples. In Proceedings of the IEEE/CVF Conference on Computer Vision
    and Pattern Recognition, pp. 9268–9277, 2019.
  2. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pp. 2980–2988,2017a.
  3. Sara Sangalli, Ertunc Erdil, Andreas Hoetker, Olivio Donati, and Ender Konukoglu. Constrained optimization for training deep neural networks under class imbalance. arXiv preprint arXiv:2102.12894,2021.
  4. Chen Huang, Yining Li, Chen Change Loy, and Xiaoou Tang. Learning deep representation for
    imbalanced classification. In Proceedings of the IEEE conference on computer vision and pattern
    recognition, pp. 5375–5384, 2016.
  5. Zeju Li, Konstantinos Kamnitsas, and Ben Glocker. Overfitting of neural nets under class imbalance: Analysis and improvements for segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pp. 402–410. Springer, 2019.
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值