样本不均衡问题

1. 什么是样本不均衡问题

简单来说:对于分类问题样本的label比例不均衡【例如正负样本的比例不是1:1】;几乎所有的分类问题都存在数据不均衡的问题,一般来说,样本不均衡的的比例在1:35是可以用的【忘记哪来的了,仅供参考】,但是很多特定的问题背景下数据根本达不到这个最低的标准【1:35】,
甚至比例极度失衡【例如1:800000】例如:

  • 1.欺诈问题【电话欺诈,信用卡盗刷等】
  • 2.自然灾害预测
  • 3.图像分类中识别恶性肿瘤

这种业务场景下就需要采用一些发方法处理样本失衡的情况; 另外,如果想要模型的效果更棒,同样可以比葫芦画瓢【处理下样本不均衡的问题】。

2. 处理样本不均衡问题的方法或者策略

我现在就知道三种策略或者方法,仅供参考。

2. 1处理样本不均衡问题的方法或者策略

2.1.1 样本采样

下采样:
1.Random undersampling
2. ClusterCentroids
3. NearMiss
上采样:
1.直接复制
2.Synthetic Minority Oversampling (SMOTE)
3.图像增强和文本增强
下采样和上采样结合:
1.SMOTEENN
2.SMOTETomek

2.1.2 训练参数

很多模型支持样本权重和类别权重
1.Class weighting
2.Sample weighting

2.1.3 选择组合模型

根据样本的比例【1:n】将样本分成n份,分别训练,投票表决。

3. 重点

相关的包:请看参考文献1

参考资料:

  1. https://imbalanced-learn.org/stable/user_guide.html
  2. https://www.kaggle.com/joparga3/in-depth-skewed-data-classif-93-recall-acc-now
  3. https://www.kaggle.com/npramod/techniques-to-deal-with-imbalanced-data/notebook
  4. https://www.kaggle.com/joparga3/in-depth-skewed-data-classif-93-recall-acc-now
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值