样本类别分布不均衡 imbalance 问题的处理

最新推荐文章于 2023-11-11 21:26:17 发布

Cookie_Cheng

最新推荐文章于 2023-11-11 21:26:17 发布

阅读量818

点赞数

分类专栏：深度学习&pytorch知识点

本文链接：https://blog.csdn.net/qq_20538071/article/details/108444481

版权

19 篇文章 2 订阅 ¥89.90 ¥99.00

订阅专栏

样本类别分布不均衡导致的危害？
样本类别不均衡将导致样本量少的分类所包含的特征过少，并很难从中提取规律；即使得到分类模型，也容易产生过度依赖与有限的数据样本而导致过拟合问题，当模型应用到新的数据上时，模型的准确性会很差。

以下以二分类问题为例说明。

SMOTE(Synthetic Minority Over-sampling Technique)过采样小样本（扩充小类，产生新数据）
即该算法构造的数据是新样本，原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本，然后选择其中一个样本，并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声，每次处理一个属性。这样就构造了更多的新生数据。（优点是相当于合理地对小样本的分类平面进行的一定程度的外扩；也相当于对小类错分进行加权惩罚（解释见3））
SMOTE 理解：小样本过采样
欠采样大样本（压缩大类，产生新数据）
设小类中有N个样本。将大类聚类成N个簇，然后使用每个簇的中心组成大类中的N个样本，加上小类中所有的样本进行训练。（优点是保留了大类在特征空间的分布特性，又降低了大类数据的数目）
欠采样大样本
对小类错分进行加权惩罚
对分类器的小类样本数据增加权值，降低大类样本的权值（这种方法其实是产生了新的数据分布，即产生了新的数据集，译者注），从而使得分类器将重点集中在小类样本身上。一个具体做法就是，在训练分类器时，若分类器将小类样本分错时额外增加分类器一个小类

了解本专栏

关注

专栏目录