目录
引言
数据重采样(Re-sampling)
数据重采样
- 面对数据不平衡,最简单直接的方法就是数据采样(包括下采样和上采样),促使其各个类别趋于均衡。
- 对于样本较少的类别,可使用上采样,复制该类图像直至与样本最多类的样本数一致或者采用样本扩充的方式。
- 对于样本较多类别,可以采用下采样,并不是随机丢弃一部分图像,这样会降低数据的多样性,影响泛化能力。
- 正确的下采样方法为:在批处理训练时对每批随机抽取的图像严格控制其样本较多类别的图像数量。
- 举个例子:以二分类为例,原数据分布情况下每次批处理训练正负样本平均数量比例为5:1,如仅使用下采样,可以在每次随机挑选训练杨奔时,每5个正例只取1个作为该批训练集的正例,负例选取仍按照原来准则,这样就可以保证正负样本比例相等。
- 注意:如果仅仅使用上采样可能会引起模型的过拟合问题,保险方法上采样+下采样一起使用。
类别平衡采样
- 着眼于类别,即类别平衡采样。
- 策略 :将样本按类别分组,每个类别生成一个样本列表。训练过程种先随机选择1个或几个类别,然后从各个类别所对应的样本列表中随机选择样本。这样就可以保证每个类被参与训练的机会均衡。
- 进一步地,海康威视在以上基础上提出了类别重组 [1] 方法,简化了步骤,具体读者自行阅读。
重新分配权重(Re-weighting)
- 增加小样本错分的惩罚代价,并将此直接体现在目标函数中,通过优化目标函数调整模型在小样本上的注意力
基于代价敏感矩阵
基于代价敏感向量
代价敏感法中权重指定方式
按照样本比例指定
按照混淆矩阵指定
总结
- 不平衡问题解决办法的效果相对有限,最为根本方法为在大规模的数据上作相关训练。
- 本文为读《解析深度学习–卷积神经网络原理与视觉实践》[2]的相关笔记,所以几乎都为书中内容,侵删。
参考资料
[1] Yang S. Several tips and tricks for ImageNet CNN training[M]. Technical Report. 2016.
[2] 解析深度学习–卷积神经网络原理与视觉实践. 魏秀参等.