数据不平衡解决之道
一、从数据本身出发
1.欠采样
2.过采样
以SMOTE为例子
3.数据增强:加噪音增强模型鲁棒性、对不同性质的数据也可以做不同的augmentation
4.改变权重:设定惩罚因子,如libsvm等算法里设置的正负样本的权重项等。惩罚多样本类别,其实还可以加权少样本类别
评价指标详情见:https://blog.csdn.net/kylin_learn/article/details/81938945
树模型:它使用基于类变量的划分规则去创建分类树,因此可以强制地将不同类别的样本分开(有待理解)