卷积神经网络类不平衡问题的系统研究 论文阅读

摘要

基准数据集MNIST、CIOWE10和ImageNet

几种方法进行广泛的比较来解决这个问题:过采样、欠采样、两相训练;以及补偿先前类概率的阈值。

结论:(i)类不平衡对分类性能的影响是有害的;
(ii)解决几乎所有分析场景中占主导地位的类不平衡的方法是过采样;
(iii)应将过采样应用于完全消除不平衡的级别,然而,最优欠采样率取决于不平衡的程度;
(iv)与一些经典的机器学习模型相反,过采样不会导致cnn的过度拟合;
(v)当关注正确分类的案例总数时,应使用阈值来补偿先验类概率。

2 解决方法

  1. 数据层面方法
    过采样(Oversampling)。深度学习中最常用的方法之一。random minority oversampling:简单地复制从少数群体类中随机选择的样本;已经证明过采样是有效的,但它会导致过拟合。SMOTE是一种更先进的抽样方法,增加了通过插值相邻数据点创建的人工示例。DataBoost IM通过增强预处理识别困难的示例,并使用它们生成合成数据。一种针对随机梯度下降优化神经网络的过采样方法是类感知采样[38]。其主要思想是确保每个小批量的类分布均匀,并控制从每个类中选择示例。
    欠采样(Undersampling)。其结果是在每个类中具有相同数量的示例。然而,与过采样相反,示例从大多数类中随机删除,直到所有类具有相同数量的示例。虽然它可能看起来不直观,但有一些证据表明,在某些情况下,欠采样比过采样更可取。一种比欠采样更普遍的方法是数据净化,它可以涉及到重新标记一些示例。
    2. 分类器级别方法
    阈值(Thresholding)。调整分类器的决策阈值。
    代价敏感学习 (Cost sensitive learning)。这种方法将不同的代价分配给不同类别的例子的错误分类。关于神经网络,它可以以各种方式实现。一种方法是阈值移动(threshold moving)或后标度(post scaling),该方法在分类器已经训练之后应用于推理阶段。类似的策略是调整网络的输出,并将其用于反向传播算法中。神经网络对代价敏感的另一种适应性是修改学习率,使代价较高的例子对权重的更新贡献更大。最后,我们可以通过最小化误分类成本而不是标准损失函数来训练网络。
    One-class classification:In the context of neural networks it is usually called novelty detection.这是一种概念学习技术,它识别积极的实例,而不是区分两个类。用于此目的的自动编码器经过训练以执行自动关联映射,即标识功能。然后,根据输入和输出模式之间的重建误差(例如绝对误差、误差平方和、欧几里德距离或马氏距离)对新示例进行分类。当分类问题转化为异常检测时,该方法在异常率极高的情况下表现良好。
    Hybrid of methods:这是一种结合了上述一个或两个类别的多种技术的方法。广泛使用的例子是ensembling。它可以被看作是其他方法的包装器。EasyEnsemble和BalanceCascade是在欠采样子集上训练分类器委员会的方法。另一方面,SMOTEBoost是boosting和SMOTE过采样的结合。最近介绍并成功应用于CNN脑肿瘤分割训练,是两阶段训练[28]。尽管任务是图像分割,但它被作为像素级分类来处理。该方法包括在平衡数据集上进行网络预训练,然后在原始不平衡数据上对softmax之前的最后一个输出层进行微调。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值