数据不平衡的一点总结

#以二分类为例

1、什么是数据不平衡

	数据不平衡往往指的是数据集中分类不平衡,A类与B类占比相差较大。

这时候的模型训练出来往往会偏向比例多的一类

2、数据处理方法

1)、增加低比例样本;

	1、对低比例进行过采样
	2、对低比例类,选取k点,以其均值或众数进行数据生成
	3、smote算法

2)、减少高比例样本

	1、欠采样

3)、算法

	1、修改算法的阈值,比如将比例多的类别阈值划分到0.7;

3、不平衡数据评价标准

	不能使用准确率,因为即使模型全部预测占比多的类别,准确率也会比较高;
	建议使用ROC曲线面试,PR曲线面积
	Precision@n,特制将分类阈值设定得到恰好与测试集中的正例个数相同时分类器的precision

4、简单通用

	bagging,boost聚合模型,+阈值调整
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值