样本不均衡处理方法、交叉检验、正则化惩罚

最新推荐文章于 2024-07-08 08:15:00 发布

PanDawson

最新推荐文章于 2024-07-08 08:15:00 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40229367/article/details/88067284

版权

本文探讨了处理样本不均衡的重要性，介绍了下采样和过采样两种方法，并解释了为何过采样通常更优。此外，解释了交叉检验的概念，用于模型参数调整和效果验证，以及正则化惩罚在防止过拟合和欠拟合中的作用，强调了寻找合适惩罚力度的必要性。

摘要由CSDN通过智能技术生成

问题：

为什么一定要处理样本不均衡？

什么是交叉检验

什么是正则化惩罚

怎么运用交叉检验

怎么运用正则化惩罚

以信用卡异常来举例，0是正常，1是异常

简单观察数据（这里的数据已经经过预处理），发现样本不均衡情况，（常理）0的数量比1的数量多得多。

处理样本不均衡有两种方法，一是下采样（使之一样少），二是过采样（使之一样多）

为什么一定要处理样本不均衡？

如果样本不均衡的时候，训练模型的时候，容易误杀，换而言之，就是容易找不出异常的，不清楚异常的数据是怎样的

因为模型遇到的大多数都是正常的数据，那么参数也很容易是为了能够识别正常的数据而进行的调整。

但我们的目标很明显——是为了识别出那些异常的数据。那么就不可以直接用样本不均衡的模型来预测，效果肯定是不好的。

下采样：使01两个类别的数据一样少。

那么就是对0（数量多的那一个类别）进行随机抽样，抽取的数量和1相同。之后合并两个数据（抽样的0和完整的1，两个数据）

很明显，合并后的数据数量肯定是少的多，我们进行最后的测试，自然不能在下采样数据集的测试集上做，下采样数据集不能反映原数据集的分布规律。

同样因为数据少的问题，下采样与过采样相比，误杀率会高（把0当做了1的部分数量较多），精度会低，recall相对会高那么一点。

过采样：使01两个数据一样多。

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
样本不均衡处理方法、交叉检验、正则化惩罚

问题：为什么一定要处理样本不均衡？什么是交叉检验什么是正则化惩罚怎么运用交叉检验怎么运用正则化惩罚以信用卡异常来举例，0是正常，1是异常简单观察数据（这里的数据已经经过预处理），发现样本不均衡情况，（常理）0的数量比1的数量多得多。处理样本不均衡有两种方法，一是下采样（使之一样少），二是过采样（使之一样多）为什么一定要处理样本不均衡？如果样本不均衡的时...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。