机器学习----线性模型:类别不平衡问题及其解决办法

定义:

在分类任务中,不同数目的训练样本例数据差距很大的情况

假如类别数量设定\frac{y}{1-y}>0.5是正例,类别不平衡时\frac{y}{1-y}>\frac{m^{+}}{m^{-}}为正例,其中m+,是正例数目,m-是反例数目。

解决方法:

1.在训练样本中,将反例样本进行欠采样,使正反样本数接近,然后再进行学习;

2.在训练样本中,对正例样本进行过采样,是正反样本数接近,然后进行学习;

3.对分类器的判定标准进行“阈值移动”,即,判别准则变为:

\frac{y^{'}}{1-y^{'}}>\frac{y}{1-y}\times \frac{m^{-}}{m^{+}}

注意:

1.欠采样会使训练数据集变小,过采样会使数据集变大,所以两者计算开销是不同的;

2.不能简单的对数目少的样本进行简单的重复采样,不然会导致严重的过拟合;代表性算法是SMOTE,通过对训练样本里数目少的样本数进插值来产生额外的样本数;

3.不不能随机的对数目多的样本进行丢弃,这可能会导致一些重要的信息丢失。代表性算法是EasyEnsemble,利用集成学习机制,将样本数目多的划分为若干个集合供不同的学习器使用,这样对每一个学习器都进行了欠采样,但对全局来说不会丢失重要的信息;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值