标题训练集中类别不平衡,会引起什么评估指标最不准确?
准确度(Accuracy)
(注意与精度区分)
对于二分类问题来说,正负样例比相差较大为99:1,模型更容易被训练成预测较大占比的类别。因为模型只需要对每个样例按照0.99的概率预测正类,该模型就能达到99%的准确率。
样本不均衡(数据倾斜)解决办法?
数据层面
1. 上采样:
Smote过采样方法,基于插值来为少数类合成新的样本(构建新的样本)。
2. 下采样:
随机丢弃一部分负样本。
评估指标层面
1. 使用更有说服力的评价指标
准确率在类别不平衡数据上,说服力比较差;可考虑AUC、F1值等。
模型层面
1. 代价敏感方法—对模型采用惩罚
通过增加分错小样本类别的权重,降低分对的大样本类别的权重,使得分类器格外关注小样本类别数据.
2. 分类器集成
使用能够解决数据倾斜的模型,例如,使用xgboost模型。