[深度学习] 不平衡样本的处理

最新推荐文章于 2024-06-19 13:03:43 发布

置顶

四月晴

最新推荐文章于 2024-06-19 13:03:43 发布

阅读量2.8w

点赞数 17

分类专栏：计算机视觉图像处理计算机视觉

本文链接：https://blog.csdn.net/siyue0211/article/details/80318999

版权

不平衡样本的处理

机器学习中经典假设中往往假定训练样本各类别是同等数量即各类样本数目是均衡的，但是真实场景中遇到的实际问题却常常不符合这个假设。一般来说，不平衡样本会导致训练模型侧重样本数目较多的类别，而“轻视”样本数目较少类别，这样模型在测试数据上的泛化能力就会受到影响。一个例子，训练集中有99个正例样本，1个负例样本。在不考虑样本不平衡的很多情况下，学习算法会使分类器放弃负例预测，因为把所有样本都分为正便可获得高达99%的训练分类准确率。
下面将从“数据层面“和”算法层面“两个方面介绍不平衡样本问题。

数据层面处理办法

数据层面处理方法多借助数据采样法使整体训练集样本趋于平衡，即各类样本数基本一致。

数据重采样

简单的数据重采样包括上采样和下采样。由于样本较少类，可使用上采样，即复制该图像直至与样本最多类的样本数一致。当然也可以由数据扩充方式替代简单复制。对于样本较多的类别，可采用下采样，注意，对深度学习而言，下采样并不是直接随机丢弃一部分图像，因为那样做会降低训练数据多样性而影响模型泛化能力。正确的下采样方式为，在批处理训练时对每批随机抽取的图像严格控制其样本较多类别的图像数量。以二分为例，原数据的分布情况下每次批处理训练正负样本平均数量比例为5：1，如仅使用下采样，可在每批随机挑选啊训练样本时每5个正例只取1个放入该批训练集的正例，负例选取按照原来的规则，这样可使每批选取的数据中正负比例均等。此外，仅仅将数据上采样有可能会引起模型过拟合。更保险有效的方式是上采样和下采样结合使用。

类别均衡采样

把样本按类别分组，每个类别生成一个样本列表，训练过程中先随机选择1个或几个类别，然后从各个类别所对应的样本列表里选择随机样本。这样可以保证每个类别参与训练的机会比较均等。
上述方法需要对于样本类别较多任务首先定义与类别相等数量的列表，对于海量类别任务如ImageNet数据集等此举极其繁琐。海康威视研究院提出类别重组的平衡方法。
类别重组法只需要原始图像列表即可完成同样的均匀采样任务，步骤如下：
1. 首先按照类别顺序对原始样本进行排序，之后计算每个类别的样本数目，并记录样本最多那个类的样本数目。之后，根据这个最多样本数对每类样本产生一个随机排列的列表，然后用此列表中的随机数对各自类别的样本数取余，得到对应的索引值。接着，根据索引从该类的图像中提取图像，生成该类的图像随机列表。之后将所有类的随机列表连在一起随机打乱次序，即可得到最终的图像列表，可以发现最终列表中每类样本数目均等。根据此列表训练模型，在训练时列表遍历完毕，则重头再做一遍上述操作即可进行第二轮训练，如此往复。类别重组法的优点在于，只需要原始图像列表，且所有操作均在内存中在线完成，易于实现。
这里写图片描述

算法层面的处理方法

对于不平衡样本导致样本数目较少的类别”欠学习“这一现象，一个很自然的解决办法是增加小样本错分的惩罚代价，并将此代价直接体现在目标函数里。这就是代价敏感的方法，这样就可以通过优化目标函数调整模型在小样本上的注意力。算法层面处理不平衡样本问题的方法也多从代价敏感的角度出发。

代价敏感方法

代价敏感的方法可概括为两种，一则基于代价敏感矩阵，一则基于代价敏感向量。

代价敏感矩阵

以分类问题为例，假设某训练集共有 $N$ 个样本，形如 ${[x_n, y_n]}_{n=1}^{N}$ ，其中样本标记 $y$ 隶属于 $K$ 类。基于代价敏感矩阵方法是利用 $K*K$ 的矩阵C对不同样本类别施加错分惩罚（亦可称权重）。

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ C (1, 1) C (2, 1) ⋮ C (1, 1) C (1, 2) C

最低0.47元/天解锁文章

四月晴

关注

17
点赞
踩
87

收藏

觉得还不错? 一键收藏
4
评论
[深度学习] 不平衡样本的处理

不平衡样本的处理机器学习中经典假设中往往假定训练样本各类别是同等数量即各类样本数目是均衡的，但是真实场景中遇到的实际问题却常常不符合这个假设。一般来说，不平衡样本会导致训练模型侧重样本数目较多的类别，而“轻视”样本数目较少类别，这样模型在测试数据上的泛化能力就会受到影响。一个例子，训练集中有99个正例样本，1个负例样本。在不考虑样本不平衡的很多情况下，学习算法会使分类器放弃负例预测，因为把所有...
复制链接

扫一扫

专栏目录