样本不均衡问题

最新推荐文章于 2023-07-28 14:01:42 发布

Read__Book

最新推荐文章于 2023-07-28 14:01:42 发布

阅读量793

点赞数

分类专栏：机器学习样本不均衡文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Read__Book/article/details/103732088

版权

机器学习同时被 2 个专栏收录

5 篇文章

订阅专栏

样本不均衡

1 篇文章

订阅专栏

1. 什么是样本不均衡问题

简单来说：对于分类问题样本的label比例不均衡【例如正负样本的比例不是1:1】；几乎所有的分类问题都存在数据不均衡的问题，一般来说，样本不均衡的的比例在1:35是可以用的【忘记哪来的了，仅供参考】,但是很多特定的问题背景下数据根本达不到这个最低的标准【1：35】，
甚至比例极度失衡【例如1:800000】例如：

1.欺诈问题【电话欺诈，信用卡盗刷等】
2.自然灾害预测
3.图像分类中识别恶性肿瘤

这种业务场景下就需要采用一些发方法处理样本失衡的情况；另外，如果想要模型的效果更棒，同样可以比葫芦画瓢【处理下样本不均衡的问题】。

2. 处理样本不均衡问题的方法或者策略

我现在就知道三种策略或者方法，仅供参考。

2. 1处理样本不均衡问题的方法或者策略

2.1.1 样本采样

下采样：
1.Random undersampling
2. ClusterCentroids
3. NearMiss
上采样：
1.直接复制
2.Synthetic Minority Oversampling (SMOTE)
3.图像增强和文本增强
下采样和上采样结合：
1.SMOTEENN
2.SMOTETomek

2.1.2 训练参数

很多模型支持样本权重和类别权重
1.Class weighting
2.Sample weighting

2.1.3 选择组合模型

根据样本的比例【1：n】将样本分成n份，分别训练，投票表决。

3. 重点

相关的包：请看参考文献1

参考资料：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。