非平衡数据集的机器学习常用处理方法

作者:离散梦

欢迎大家给出宝贵的建议!

 

非平衡数据集的机器学习常用处理方法

 

 

1.收集更多的数据

 

2.尝试改变性能评价标准:【当数据不平衡,准确度已经失去了它原有的意义】

(1)混淆矩阵

(2)精度

(3)召回率

(4)F1分数(权衡精度和召回率)

(5)Kappa(衡量分类精度)

(6)Roc曲线(曲线面积就是AUC)

 

3.重采样数据(结合正则化模型)

(1)过采样  只是单纯的重复了正例(最大风险就是对正例过拟合)

(2)欠采样  抛弃了大部分反例数据(可能造成偏差很大的模型)

 

4.生成合成数据

随机采样样本数目比较少的属性

SMOTE,合成少数类过采样技术【本算法基于“插值”来为少数类合成新的样本,存在一定盲目性】

 

考虑该少数类【正例】的一个样本i,其特征向量为

(1)首先从该少数类的全部T个样本中找到Xi的K(用户自行选择)个近邻(例如用欧式距离),记为

(2)然后从这k个近邻中随机选择一个样本Xi(nn),再生成一个0到1之间的随机数,从而合成一个新样本Xi1:

(3)讲步骤2重复进行N次,从而可以合成N个新样本:。那么,对全部的T个少数类样本进行上述操作,便可为该少数类合成N个新样本【N必须是正整数】

 

如果样本特征是2维,每个样本都可以用一个点表示。那Xi1相当于Xi和Xi(nn)之间的一个点。相当于“插值”。

 

5.使用不同的算法

尝试不同的方法,决策树一般在不平衡数据集上表现的比较好。

 

6.尝试惩罚模型

就是添加新的惩罚项到cost函数中(比如带惩罚项的SVM),以使得小样本的类别被判断错误的cost更大,迫使模型重视小样本的数据。

 

7.使用不同的视角

有专门领域和算法做这个(不平衡数据集)

比如异常检测

 

8.尝试新的改进

把样本比较多的类别,分解为一些更多的小类别。

比如区分数字0和其他数字。可以把其他数字分为0~9类。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值