作者:离散梦
欢迎大家给出宝贵的建议!
非平衡数据集的机器学习常用处理方法
1.收集更多的数据
2.尝试改变性能评价标准:【当数据不平衡,准确度已经失去了它原有的意义】
(1)混淆矩阵
(2)精度
(3)召回率
(4)F1分数(权衡精度和召回率)
(5)Kappa(衡量分类精度)
(6)Roc曲线(曲线面积就是AUC)
3.重采样数据(结合正则化模型)
(1)过采样 只是单纯的重复了正例(最大风险就是对正例过拟合)
(2)欠采样 抛弃了大部分反例数据(可能造成偏差很大的模型)
4.生成合成数据
随机采样样本数目比较少的属性
SMOTE,合成少数类过采样技术【本算法基于“插值”来为少数类合成新的样本,存在一定盲目性】
考虑该少数类【正例】的一个样本i,其特征向量为
(1)首先从该少数类的全部T个样本中找到Xi的K(用户自行选择)个近邻(例如用欧式距离),记为
(2)然后从这k个近邻中随机选择一个样本Xi(nn),再生成一个0到1之间的随机数,从而合成一个新样本Xi1:
(3)讲步骤2重复进行N次,从而可以合成N个新样本:。那么,对全部的T个少数类样本进行上述操作,便可为该少数类合成N个新样本【N必须是正整数】
如果样本特征是2维,每个样本都可以用一个点表示。那Xi1相当于Xi和Xi(nn)之间的一个点。相当于“插值”。
5.使用不同的算法
尝试不同的方法,决策树一般在不平衡数据集上表现的比较好。
6.尝试惩罚模型
就是添加新的惩罚项到cost函数中(比如带惩罚项的SVM),以使得小样本的类别被判断错误的cost更大,迫使模型重视小样本的数据。
7.使用不同的视角
有专门领域和算法做这个(不平衡数据集)
比如异常检测
8.尝试新的改进
把样本比较多的类别,分解为一些更多的小类别。
比如区分数字0和其他数字。可以把其他数字分为0~9类。