分类中常见的类别不平衡问题解决方法

最新推荐文章于 2024-02-16 10:53:08 发布

置顶

VIP文章 weepon

最新推荐文章于 2024-02-16 10:53:08 发布

阅读量3.3w

点赞数 26

分类专栏：机器学习文章标签：分类类别不平衡机器学习解决方法数据不平衡

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013829973/article/details/77675147

版权

常见的类别不平衡问题解决方法

常见的类别不平衡问题解决方法
- 那么，什么是“类别不平衡”？
- 解决方法

通常的分类学习方法中都有一个共同的假设，即不同类别的训练样例数目相同。如果不同类别的训练样例数目稍有差别，通常对分类影响不大，但是若差别很大，则会对学习造成影响，测试结果非常差。例如二分类问题中有998个反例，正例有2个，那么学习方法只需返回一个永远将新样本预测为反例的分类器，就能达到99.8%的精度；然而这样的分类器没有价值，我们必须要解决这个问题。

那么，什么是“类别不平衡”？

类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数目差别很大的情况。
在现实的分类任务中，我们会经常遇到类别不平衡的问题。例如，在银行信用欺诈交易识别中，属于欺诈交易的应该是很少部分，绝大部分交易是正常的，这就是一个正常的类别不平衡问题。一般而已，如果类别不平衡比例超过4:1，那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前，需要对分类不平衡性问题进行处理。

解决方法

1、扩大数据集

当遇到类别不均衡问题时，首先应该想

最低0.47元/天解锁文章

关注

26
点赞
踩
191

收藏

觉得还不错? 一键收藏
6
评论
分类中常见的类别不平衡问题解决方法

常见的类别不平衡问题解决方法通常的分类学习方法中都有一个共同的假设，即不同类别的训练样例数目相同。如果不同类别的训练样例数目稍有差别，通常对分类影响不大，但是若差别很大，则会对学习造成影响，测试结果非常差。例如二分类问题中有998个反例，正例有2个，那么学习方法只需返回一个永远将新样本预测为反例的分类器，就能达到99.8%的精度；然而这样的分类器没有价值，我们必须要解决这个问题。
复制链接

扫一扫

专栏目录

博客等级

码龄10年

20
原创

339
点赞

966
收藏

237
粉丝

关注

私信

热门文章

分类专栏

最新评论

（干货）结合Scikit-learn介绍几种常用的特征选择方法
Mr.Meat: 博主你好，我的任务是这样的，我有一个长度为35064的TEC图像时间序列以及与之对应的33个物理参数序列，TEC图像会受到这些物理参数的影响，我希望找出对TEC图像影响最大的几个物理参数，因此我将TEC图片序列及进行了压缩，提取了每幅TEC图像的低维向量，其长度为324，这些低维向量是一维的，我希望利用随机森林或ElasticNet回归选择出对TEC图像影响较大的物理参数，因此我想将物理参数组成的特征作为输入特征，将与这些物理参数对应的低维向量作为目标，则物理参数矩阵为35064*33，低维向量矩阵为35064*324，这样的思路和方法是否可以使用上面提到的两个模型
主成分分析（PCA）原理与故障诊断（SPE、T^2以及结合二者的综合指标）-MATLAB实现
weixin_44046845: 您好，你在pca的时候使用了标准化，但是我看相关论文上使用的是中心化，两者有什么区别呢
极限学习机（ELM）算法及MATLAB程序实现
m0_62830086: 请问你收到了吗
主成分分析（PCA）原理与故障诊断（SPE、T^2以及结合二者的综合指标）-MATLAB实现
weepon: 有没有其他改动？或者软件版本问题
（干货）结合Scikit-learn介绍几种常用的特征选择方法
weepon: 可能是python或sklearn版本的问题

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。