样本不均衡的解决办法

最新推荐文章于 2024-07-06 08:25:37 发布

hhhh106

最新推荐文章于 2024-07-06 08:25:37 发布

阅读量2.6k

点赞数

分类专栏：机器学习原理文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25174485/article/details/121103302

版权

机器学习原理专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1、过采样

对于某个比较少的label，可以复制样本达到增大样本量的效果，一般这种方法不太合理，过分强调已有的样本，放大噪声样本，过拟合。

也可以结合SMOTE方法，这种方法不是单纯的重复样本，而是通过某种方式对已有的样本进行加工变换，产生与已有样本相近的样本，对噪声样本的抵抗性更强，降低了过拟合的风险，但还是存在一定的缺点。

适用于样本量较少的情况。

2、欠采样

如果样本量级较大，可以对样本量比较大的label进行欠采样，量级不够多的情况下可能会损失部分样本信息，具体看数据情况与分布。

3、样本加权

以多分类为例，如果某个label较多，可以给该样本较低的权重，比如weight=0.7，其他label给1.0，这样的话，该label的精确会增加，召回降低。

举个例子：label 2的召回由于label 3样本量较大，结果较低，如果给label 3进行加权，赋值为0.7，以LightGBM模型为例，train_data = lgb.Dataset(data_path, weight = weight_para)，这里的weight_para是一个list，包含了每一个样本的权重[1,0.7,0.7,1....]

加权前：

加权后：

acc有一定的降低，label2、4的精确降低，但是召回提升，label 3相反，其他label 波动不大。通过这样的方式可以让大盘预测的分布更加合理。相比较欠采样，这种方式可以保留更多的样本信息。

4、调整阈值

对于2分类来说，当模型预测结果分布不合理时，可以直接调整阈值，一般默认是0.5，可以根据实际正负类的分布占比，来调整阈值，此时的模型效果需要重新评估。但对于多分类这种方式不太方便，且调整阈值影响的是比当前label预测概率的类别，整体的label分布不会根据情况做相应的动态调整。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
样本不均衡的解决办法

1、过采样对于某个比较少的label，可以复制样本达到增大样本量的效果，一般这种方法不太合理，过分强调已有的样本，放大噪声样本，过拟合。也可以结合SMOTE方法，这种方法不是单纯的重复样本，而是通过某种方式对已有的样本进行加工变换，产生与已有样本相近的样本，对噪声样本的抵抗性更强，降低了过拟合的风险，但还是存在一定的缺点。适用于样本量较少的情况。2、欠采样如果样本量级较大，可以对样本量比较大的label进行欠采样，量级不够多的情况下可能会损失部分样本...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。