文章目录
从多数类别中删除数据(ENN、Tomeklink、NearMiss)
ENN
NearMiss
为少数类生成新样本(SMOTE、Borderline-SMOTE、ADASYN)
- Borderline-SMOTE
集成方法
随机降采样 + Bagging是万金油。
EasyEnsemble算法
属于bagging
BalanceCascade算法
- 使用之前已经形成的集成分类器为下次寻来呢选择多类样本
假阳性率是auc的横轴
算法层面
对于不平衡样本导致样本数目较少的类别”欠学习“这一现象,一个很自然的解决办法是增加小样本错分的惩罚代价,并将此代价直接体现在目标函数里。这就是代价敏感的方法,这样就可以通过优化目标函数调整模型在小样本上的注意力。算法层面处理不平衡样本问题的方法也多从代价敏感的角度出发。
在线困难样本挖掘 OHEM
pass
Focal Loss 损失函数的权重调整
- 类别权重:少数类获得更大的权重
- 难度权重:更专注于比较困难的样本