分类中训练集中不平衡问题解决办法

1.改变数据集规模

增加小类样本+减少大类样本

2.更换评价指标

准确度+召回率+F1值+ROC曲线

3.数据集重采样

小类样本过采样+大类样本欠采样

4.生产人工数据

SMOTE过采样算法

5.更换分类算法

决策树往往在类别不均衡数据上表现不错。

6.对模型惩罚

小类样本数据增加权值,降低大类样本的权值

7.业务理解角度

异常点检测+变化趋势检测

8.集成方式

boosting算法,训练多个分类器,分类器进行联合分类


其他角度:

设超大类中样本的个数是极小类中样本个数的L倍,那么在随机梯度下降(SGD,stochastic gradient descent)算法中,每次遇到一个极小类中样本进行训练时,训练L次。
一个相关的想法是,在神经网络中,随机选择部分隐藏层单元来继续训练。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值