对训练样本分布不均的思考

最新推荐文章于 2023-03-29 17:24:32 发布

原创最新推荐文章于 2023-03-29 17:24:32 发布

· 2.1k 阅读

11 ·

版权

文章标签：

#机器学习 #样本不均衡

机器学习专栏收录该内容

27 篇文章

订阅专栏

背景

最近自己做一个游戏激活&付款预测的比赛，正负样本极其不均衡

正样本：51969 负样本：87529147867(875亿+)

和同事讨论之后+查资料之后，对正负样本不均有了一些新的理解。

最后的理解

样本的正负不均衡和模型学不好没有一定的联系。

对于正负样本不均衡，但是正负样本都足够多的情况，模型还是可以学好的。可能数量巨多的那一类会过拟合。

对于某类样本不够多的情况，需要提高该类权重或者新增该类样本。

对于某类样本绝对多，并且噪声大的情况，对该类样本负采样，会减少噪声。

理解这个问题

传统机器学习以降低总体分类准确度ACC(accuracy)为目标，模型效果在样本分布不均衡的时候，取决于数据量大的一类。

有些有趣的现象：（摘自机器学习中的负采样（nagative sampling）方法在什么情况下有效，背后的原因是什么？ - 赵印的回答 - 知乎 https://www.zhihu.com/question/310805161/answer/587944773）

negative sampling在以下几种情况可能会有不一样的结果。

1）样本信息过分冗余，通过negative sampling可以在相同机器资源的情况下提高训练速度，而且对效果影响很有限，这对于有限预算下是很重要的。

2）负样本不能有效反应用户真实意图的情况下，negative sampling可能会带来收益，比如有一些场景用户很可能大部分都没有看到而导致的负样本采集；

3）对于不同的问题也可能会不太一样，比如说implicit和explicit的问题，implict的feedback本身也是有折损的，也就是不点击不代表不喜欢，点击也不代表一定喜欢，需要考虑的信号就需要更仔细的看了。

样本分类不均衡分类

1. 大数据集存在分布不均衡。整体数据规模大，小样本占比较小，但是小样本也覆盖了大部分或者全部特征。

2.小数据集存在分布不均衡。整体数据规模小，少数样本比例的分类数量也少，导致特征分布严重不均衡。

解决方法

摘自机器学习中样本不平衡，怎么办？ - Jim的文章 - 知乎 https://zhuanlan.zhihu.com/p/299166450

扩大训练集

样本不平衡时，可以增加包含一定比例小类样本数据以扩大数据集，更多的数据往往战胜更好的算法。因为机器学习是使用现有的数据多整个数据的分布进行估计，因此更多的数据往往能够得到更多的分布信息，以及更好分布估计。

但有时在增加小类样本数据的同时，也增加了大类数据，并不能显著解决样本不平衡问题。此时可以通过对大类样本数据进行欠采样，以放弃部分大类数据来解决。

重新选择评价指标

确度在类别均衡的分类任务中并不能有效地评价分类器模型，造成模型失效，甚至会误导业务，造成较大损失。

最典型的评价指标即混淆矩阵Confusion Matrix：使用一个表格对分类器所预测的类别与其真实的类别的样本统计，分别为：TP、FN、FP、TN。包括精确度Precision、召回率Recall、F1得分F1-Score等。

重采样数据集

使用采样sampling策略该减轻数据的不平衡程度。主要有两种方法

对小类的数据样本进行采样来增加小类的数据样本个数，即过采样over-sampling
对大类的数据样本进行采样来减少该类数据样本的个数，即欠采样under-sampling

采样算法往往很容易实现，并且其运行速度快，并且效果也不错。在使用采样策略时，可以考虑

不进行采样，正负样本都足够多，也不容易过拟合
对大类下的样本 (超过1万, 十万甚至更多) 进行欠采样，即删除部分样本
对小类下的样本 (不足1万甚至更少) 进行过采样，即添加部分样本的副本
尝试随机采样与非随机采样两种采样方法
对各类别尝试不同的采样比例
同时使用过采样与欠采样

产生人工数据样本

一种简单的方法，对该类下的所有样本的每个属性特征的取值空间中随机选取一个值以组成新的样本，即属性值随机采样。可以使用基于经验对属性值进行随机采样而构造新的人工样本，或使用类似朴素贝叶斯方法假设各属性之间互相独立进行采样，这样便可得到更多的数据，但是无法保证属性之前的线性关系（如果本身是存在的）。

有一个系统的构造人工数据样本的方法SMOTE (Synthetic Minority Over-sampling Technique)。SMOTE是一种过采样算法，它构造新的小类样本而不是产生小类中已有的样本的副本，即该算法构造的数据是新样本，原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本，然后选择其中一个样本，并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声，每次处理一个属性。这样就构造了更多的新生数据。

尝试不同的分类算法

对待每一个机器学习任务都使用自己喜欢而熟悉的算法，相信很多人都会感同身受。但对待不同任务需要根据任务本身特点选用不同等算法，尤其对样本不均衡等分类任务。应该使用不同的算法对其进行比较，因为不同的算法使用于不同的任务与数据。

决策树往往在类别不均衡数据上表现不错。它使用基于类变量的划分规则去创建分类树，因此可以强制地将不同类别的样本分开。

对模型进行惩罚

你可以使用相同的分类算法，但是使用一个不同的角度，比如你的分类任务是识别那些小类，那么可以对分类器的小类样本数据增加权值，降低大类样本的权值，从而使得分类器将重点集中在小类样本身上。一个具体做法就是，在训练分类器时，若分类器将小类样本分错时额外增加分类器一个小类样本分错代价，这个额外的代价可以使得分类器更加"关心"小类样本。如penalized-SVM和penalized-LDA算法。