分类问题：如何解决样本分布不均衡

最新推荐文章于 2024-07-19 23:14:52 发布

Grayson Zhang

最新推荐文章于 2024-07-19 23:14:52 发布

阅读量2.9k

点赞数

分类专栏：机器学习文章标签：分类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51174011/article/details/123319913

版权

分类问题：如何解决样本分布不均衡

提出问题

样本分布不均衡是解决分类问题过程中经常遇到的一种情况。

当数据集中某一类的样本数量远超于其他样本的时候，模型自然会有一种倾向使得分类结果偏向于该类样本，这是概率统计中先验的性质。

在极端情况下，如果有一类样本的数量占了数据集的绝大多数，那么哪怕模型直接将所有的样本都预测为该类样本，模型预测的错误率依然不会太低。

为了发现这种情况，我们可以采用AUC等其他的指标。当出现样本不均衡时，AUC会趋于0.5

解决问题

1. 改变采样的方式

既然不同类别的样本的数量相差悬殊时，会导致模型的预测出现较为明显的偏差，那么我们可以通过采样的方式来平衡不同类别的数量。

采样的方式有两种：

第一种是欠采样，就是对数量较多类别的样本再次采样，取其中的一部分，使其最终输入模型的数量与其他类别样本的数量相仿。欠采样显然是最理想的方案，因为完美的平衡了不同类别样本的数量，从根本上解决了问题。但是，在解决实际问题的时候，我们往往没有那么多的数据集可以供我们挥霍，所以在现实中这种方法的可行性并不高。

第二种是重采样，意思是，对数量较少的类别的样本重复采样，使其最终输入模型的数量与数量多的类别的样本的数量相仿。但是，虽然重采样可以在样本数量少，样本珍惜的情况下，手动的使不同类别样本的数量趋于平衡，但是它很大程度上破坏了数据的分布（其实欠采样也是）。

2. 施加惩罚项

样本分布不均衡一个很直观的体现就是，哪怕我把所用样本都预测为样本数量较多的类别，我的误差也不会太高。这样，模型在以误差（错误率）为指标的情况下，依然能取得较高分数。

那么，如果我们对“将样本数量较少的类别的样本分类错误”这一情况施加惩罚呢？

很好理解，在这样的情况下，哪怕模型在错误率方面的得分很高，但因为惩罚存在，整体的分数会下降。所以模型会主动避免这样的情况出现。

接下来的问题是，我们该如何设计惩罚项呢？

首先想到的是分类问题中相当经典的SVM模型中的软间隔。我们可以对每一个点施加一个约束，约束如果分类错误，该点距离划分超平面点距离不能超过多少。统计每一个约束，我们的目标是让模型在基于错误率的得分高的同时，也要保证所有点误分类到超平面的和不能太大，即这部分的得分不能太低。

所以，惩罚项的核心是 $\displaystyle\sum_{i=1}^n{\xi_i}$

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
分类问题：如何解决样本分布不均衡

分类问题：如何解决样本分布不均衡提出问题样本分布不均衡是解决分类问题过程中经常遇到的一种情况。当数据集中某一类的样本数量远超于其他样本的时候，模型自然会有一种倾向使得分类结果偏向于该类样本，这是概率统计中先验的性质。在极端情况下，如果有一类样本的数量占了数据集的绝大多数，那么哪怕模型直接将所有的样本都预测为该类样本，模型预测的错误率依然不会太低。为了发现这种情况，我们可以采用AUC等其他的指标。当出现样本不均衡时，AUC会趋于0.5解决问题1. 改变采样的方式既然不同类别的样本的数量相差悬殊
复制链接

扫一扫

专栏目录

Grayson Zhang CSDN认证博客专家 CSDN认证企业博客

码龄4年

217: 原创

23万+: 周排名

67万+: 总排名

16万+: 访问

: 等级

2584: 积分

63: 粉丝

140: 获赞

55: 评论

322: 收藏

私信

关注

热门文章

分类专栏

算法精析 2篇
leetcode每日一题 6篇
蓝桥杯真题 11篇
机器学习 2篇
数据科学 3篇
金融风控 1篇
蓝桥杯 63篇
Leetcode 15篇
dp 4篇
贪心 2篇
数据结构 3篇
蓝桥2 10篇
傻瓜教程（LC） 50篇
PTA 10篇
PAT 1篇
算法 7篇
python学习 14篇
实验 9篇
常用功能 4篇

最新评论

动态规划——耐摔指数
Aze0313: 题目分析--简析的第一点
动态规划——耐摔指数
Grayson Zhang: 如果你指的是参数转移方程里的 t，t 指代的是剩余要测试的楼层的数量，并不是楼层本身的高度；如果是别的地方的问题可以具体指出，我再看一下
动态规划——耐摔指数
Grayson Zhang: 确实，已改正
动态规划——耐摔指数
Aze0313: 从x层摔下没碎，为什么从x-1摔下会碎。是x+1吧
数据科学你得知道的几种分布（下）[泊松分布，卡方分布，Beta分布]
qq_37081769: 能把已学的二项分布与新介绍的泊松定理相结合，理解更加深刻了，很好的入门/复习文章！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Grayson Zhang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。