1. 什么是样本不均衡问题
简单来说:对于分类问题样本的label比例不均衡【例如正负样本的比例不是1:1】;几乎所有的分类问题都存在数据不均衡的问题,一般来说,样本不均衡的的比例在1:35是可以用的【忘记哪来的了,仅供参考】,但是很多特定的问题背景下数据根本达不到这个最低的标准【1:35】,
甚至比例极度失衡【例如1:800000】例如:
- 1.欺诈问题【电话欺诈,信用卡盗刷等】
- 2.自然灾害预测
- 3.图像分类中识别恶性肿瘤
这种业务场景下就需要采用一些发方法处理样本失衡的情况; 另外,如果想要模型的效果更棒,同样可以比葫芦画瓢【处理下样本不均衡的问题】。
2. 处理样本不均衡问题的方法或者策略
我现在就知道三种策略或者方法,仅供参考。
2. 1处理样本不均衡问题的方法或者策略
2.1.1 样本采样
下采样:
1.Random undersampling
2. ClusterCentroids
3. NearMiss
上采样:
1.直接复制
2.Synthetic Minority Oversampling (SMOTE)
3.图像增强和文本增强
下采样和上采样结合:
1.SMOTEENN
2.SMOTETomek
2.1.2 训练参数
很多模型支持样本权重和类别权重
1.Class weighting
2.Sample weighting
2.1.3 选择组合模型
根据样本的比例【1:n】将样本分成n份,分别训练,投票表决。
3. 重点
相关的包:请看参考文献1