数据样本类别不平衡

标题训练集中类别不平衡,会引起什么评估指标最不准确?

准确度(Accuracy)
(注意与精度区分)
对于二分类问题来说,正负样例比相差较大为99:1,模型更容易被训练成预测较大占比的类别。因为模型只需要对每个样例按照0.99的概率预测正类,该模型就能达到99%的准确率。

样本不均衡(数据倾斜)解决办法?

数据层面

1. 上采样:
Smote过采样方法,基于插值来为少数类合成新的样本(构建新的样本)。
2. 下采样:
随机丢弃一部分负样本。

评估指标层面

1. 使用更有说服力的评价指标
准确率在类别不平衡数据上,说服力比较差;可考虑AUC、F1值等。

模型层面

1. 代价敏感方法—对模型采用惩罚
通过增加分错小样本类别的权重,降低分对的大样本类别的权重,使得分类器格外关注小样本类别数据.

2. 分类器集成

使用能够解决数据倾斜的模型,例如,使用xgboost模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值