6个处理数据不均衡的策略

最新推荐文章于 2022-09-23 14:27:13 发布

泡温水澡的青蛙

最新推荐文章于 2022-09-23 14:27:13 发布

阅读量4.1k

点赞数 1

分类专栏：机器学习文章标签： imbalance 数据不平衡

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据不均衡往往可以导致一些问题，比如对一个两类分类问题，如果训练集中的正负样本比例为99：1，那么直接将所有样本都分为正样本，模型的准确度也可以达到99%。准确度通常是我们衡量一个模型性能的基本指标（starting point），但是它有时候并不客观（misleading），这个可以参考accuracy paradox。但其实这个训练的模型并没有什么用。那么在训练集中数据不均衡的条件下，如果避免训练的模型对于某一类出现过拟合的现象呢？
1.收集更多数据：
这个方法经常被忽略。事实上，如果可以收集到更多数据，那么它从两个方面来讲是有效的：首先大的数据集或许类别之间更加均衡；另外收集更多数据那么较少类里面的数据也会更多，这个在后面的策略里面会很有用。
2.改变使用的性能评价标准：
正如前面提到的accuracy paradox，简单的通过准确度来衡量模型的性能并不是客观的。这里还有其他可以用来衡量模型性能的指标，最常见的包括Precision(TP/TP+FP)，Recall(TP/TP+FN)，precision可以衡量模型对正样本识别的准确度，recall则可以衡量对正样本识别的完整性。F1-score指标是基于precision和recall，取二者的调和平均数。另外还有ROC曲线，ROC曲线涉及到两个指标：sensitivity(TP/TP+FN)和specificity(TN/TN+FP)。可以看出，这两个指标中sensitivity实际上跟recall是一致的，衡量模型对正样本的检测能力，specificity则是衡量模型对负样本的检测能力。在ROC曲线中，纵坐标是sensitivity，横坐标是1-specificity。如果一个模型的ROC曲线越贴近Y轴，那么它的性能越好，而越靠近斜率为1的直线，分类能力越差。具体的解释可以参考ROC curve.另外，也可以修改accuracy的计算方式0.5*（sensitivity+specificity）。这样就避免了偏向于某一类样本。
3.重采样（resampling）：
重采样就是重新调整你所用的数据集，一般分为两种方式：
上采样（oversampling）:复制观测值少的类的样本；数据少的时候常使用这个。
下采样（undersampling）:删除观测值多的类的样本；数据多的时候常使用这个。
通常而言，这两种方式简单易行，所以可以都进行尝试比较两者的性能。采样的时候可以考虑random 或者non-random的方式，以及使用不同的重采样比例。
4.生成合成样本：
与resampling 的方式不同，这里不是复制样本，而是通过算法生成合成的样本。比较著名的算法是SMOTE：Synthetic minority over sampling techniques.它的基本方法是首先通过距离度量选择两个或多个比较相近的样本，然后通过在一个样本中添加随机扰动来生成新的样本，当然要求这个随机扰动必须在相邻实例的差异之间。
5.使用不同的算法：
不要在所有问题上使用同一个算法。
6.使用带惩罚的模型（penalized model）：
可以为每类给定一个权重。比如通过给观测值少的类较大的代价。常见的比如penalized-SVM或者penalized-LDA。