样本不平衡问题

最新推荐文章于 2024-01-24 22:39:31 发布

掌舵的鹰

最新推荐文章于 2024-01-24 22:39:31 发布

阅读量706

点赞数

分类专栏：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38405636/article/details/80680162

版权

机器学习算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在进行分类问题的时候样本不平衡往往会导致分类器更倾向于将样本分到数量多的一类，从而导致较高的召回较低的准确率。

这种情况下有以下几种解决方法（假设正样本：负样本=1000：10w）：

1. 过采样

a. 简单将正样本复制n份（不推荐）

b. SMOTE采样（对于SVM基本无效）

2. 欠采样（会丢到一些重要的信息）

a. 简单将正样本抽样1/100

b. 将负样本聚成1000类，取每个类的中心组成新的一类

3. 对分类器的小类样本数据增加权值，降低大类样本的权值（这种方法其实是产生了新的数据分布，即产生了新的数据集，译者

注），从而使得分类器将重点集中在小类样本身上。一个具体做法就是，在训练分类器时，若分类器将小类样本分错时额外增

加分类器一个小类样本分错代价，这个额外的代价可以使得分类器更加“关心”小类样本。如penalized-SVM和penalized-LDA

算法。

4. 将负样本分成100分，每次取其中一份与正样本一起训练，都训练完后一起投票

5.分层级ensemble

使用原始数据集训练第一个学习器L1；将L1错分的数据集作为新的数据集训练L2；将L1和L2分类结果不一致的数

据作为数据集训练L3；最后测试集上将三个分类器的结果汇总（结合这三个分类器，采用投票的方式来决定分类

结果，因此只有当L2与L3都分类为false时，最终结果才为false，否则true。）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
样本不平衡问题

在进行分类问题的时候样本不平衡往往会导致分类器更倾向于将样本分到数量多的一类，从而导致较高的召回较低的准确率。这种情况下有以下几种解决方法（假设正样本：负样本=1000：10w）：1. 过采样 a. 简单将正样本复制n份（不推荐） b. SMOTE采样（对于SVM基本无效）2. 欠采样（会丢到一些重要的信息） a. 简单将正样本抽样1/100 b. 将负样本聚成1000类，取每个类的中心组成新...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。