类别不平衡问题

目录

1.类别不平衡问题

1.1下采样

1.2过采样

1.3 再缩放


1.类别不平衡问题

采样与加权等方法。

1.1下采样

下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本。

下采样的缺点是最终的训练集丢失了数据,模型只学到了总体模式的一部分。

  • EasyEnsemble,利用模型融合的方法(Ensemble):多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果。
  • BalanceCascade,将Adaboost作为基分类器,其核心思路是在每一轮训练时都使用多数类与少数类数量上相等的训练集,然后使用该分类器对全体多数类进行预测,通过控制分类阈值(即概率超过多少判定为少数类)来控制FP(False Positive)率,将所有判断正确的类(数量为负样本总数×(1-FP))删除,然后进入下一轮迭代继续降低多数类数量。

1.2过采样

上采样是把小众类复制多份

上采样后的数据集中会反复出现一些样本,训练出来的模型会有一定的过拟合,可以在每次生成新数据点时加入轻微的随机扰动。

SMOTE策略:

1.3 再缩放

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值