数据质量管理_第三篇非平衡数据集处理（1）

最新推荐文章于 2022-12-19 17:00:02 发布

SMT深海的鱼

最新推荐文章于 2022-12-19 17:00:02 发布

阅读量1.1k

点赞数

分类专栏：数据质量

原文链接：https://www.cnblogs.com/kamekin/p/9824294.html

版权

数据质量专栏收录该内容

6 篇文章 2 订阅

订阅专栏

A、定义：不平衡数据集：在分类等问题中，正负样本或者各个类别的样本数目不一致。

B、例子：在人脸检测中，比如训练库有10万张人脸图像，其中9万没有包含人脸，1万包含人脸，这个数据集就是典型的不平衡数据集。直观的影响就是，用这些不平衡的数据训练出来的模型，其预测结果偏向于训练数据中数据比较多的那一类，在人脸检测的例子中，就是检测器的检测结果大部分都偏向于没有检测到人脸图像。另外一个不平衡数据集，就是信用卡欺诈交易，如果平均的抽取数据，则大部分的数据都是非欺诈交易，只有非常少的部分数据是欺诈交易。

C、影响：不平衡的数据集上做训练和测试，得到的准确率是虚高的，比如在不平衡数据中，正负样本的比例是9:1时，当他的精度为90%时，我们很有理由怀疑它将所有的类别都判断为数据说的那一类。

D、解决方法：8种
1.收集更多的数据：好处：更够揭露数据类别的本质差别，增加样本少的数目以便后面的数据重采样。

2.尝试改变性能评价标准：

当数据不平衡时，准确度已经失去了它原有的意义，
可以参考的度量标准有：1> 混淆矩阵CM 2>精度 3>召回率 4>F1 分数（权衡精度和召回率）；5.Kappa 6，ROC曲线

3.重采样数据：

1，拷贝一部分样本偏少的数据多分，已达到平衡（过采样）；
2，删除一部分样本偏多的数据，以使得达到平衡（欠采样）；
在实际中，过采样和欠采样都会使用的。
在测试中，如果样本总数比较多，可以用欠采样的数据进行测试，如果样本总数比较少，可以用过采样的数据进行测试；另外应该测试随机采样的数据和非随机采样的数据，同时，测试不同比例正负样本的数据。

（对占比较大的类别进行欠采样；对占比较小的类别进行过采样）

{具体的方法：对大类样本进行欠采样->将从占比较大的类别下的样本中随机选择n个样本，其中n的值等于占比较小的类别下大的样本的总数，并在训练阶段使用它们，然后在验证中排除掉这些样本。

对少类样本进行过采样->第一种方法：将验证样本从训练样本中分离处理，然后再对训练样本重少数类}

样本进行过采样；第二种方法：SMOTE方法：通过分析少数类样本来创建新的样本，同时对多数类样本进行欠采样。

4.生成合成数据：

最简单的是，随机采样样本数目比较少的属性，
另外一个比较出名的方法为：SMOTE：它是一种过采样的方法，它从样本比较少的类别中创建新的样本实例，一般，它从相近的几个样本中，随机的扰动一个特征。

5.使用不同的算法：
不要试图用一个方法解所有的问题，尝试一些其他不同的方法，比如决策树一般在不平衡数据集上表现的比较的好。

6.尝试惩罚模型:
意思就是添加新的惩罚项到cost函数中，以使得小样本的类别被判断错误的cost更大，迫使模型重视小样本的数据。比如：带惩罚项的SVM

7.使用不同的视角：
不平衡的数据集，有专门的邻域和算法做这个，可以参考他们的做法和术语。比如：异常检测。

8.尝试新的改进：
比如：1.把样本比较多的类别，分解为一些更多的小类别，比如：原始我们想区分数字0和其它数字这二分类问题，我们可以把其它数字在分为9类，变成0–9的分类问题；

SMT深海的鱼

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据质量管理_第三篇非平衡数据集处理（1）

A、定义：不平衡数据集：在分类等问题中，正负样本或者各个类别的样本数目不一致。B、例子：在人脸检测中，比如训练库有10万张人脸图像，其中9万没有包含人脸，1万包含人脸，这个数据集就是典型的不平衡数据集。直观的影响就是，用这些不平衡的数据训练出来的模型，其预测结果偏向于训练数据中数据比较多的那一类，在人脸检测的例子中，就是检测器的检测结果大部分都偏向于没有检测到人脸图像。另外一个不平衡数据集，就...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。