样本不均衡处理方法、交叉检验、正则化惩罚

本文探讨了处理样本不均衡的重要性,介绍了下采样和过采样两种方法,并解释了为何过采样通常更优。此外,解释了交叉检验的概念,用于模型参数调整和效果验证,以及正则化惩罚在防止过拟合和欠拟合中的作用,强调了寻找合适惩罚力度的必要性。
摘要由CSDN通过智能技术生成

问题:

为什么一定要处理样本不均衡?

什么是交叉检验

什么是正则化惩罚

怎么运用交叉检验

怎么运用正则化惩罚

 

以信用卡异常来举例,0是正常,1是异常

简单观察数据(这里的数据已经经过预处理),发现样本不均衡情况,(常理)0的数量比1的数量多得多。

处理样本不均衡有两种方法,一是下采样(使之一样少),二是过采样(使之一样多)

为什么一定要处理样本不均衡?

如果样本不均衡的时候,训练模型的时候,容易误杀,换而言之,就是容易找不出异常的,不清楚异常的数据是怎样的

因为模型遇到的大多数都是正常的数据,那么参数也很容易是为了能够识别正常的数据而进行的调整。

但我们的目标很明显——是为了识别出那些异常的数据。那么就不可以直接用样本不均衡的模型来预测,效果肯定是不好的。

下采样:使01两个类别的数据一样少。

那么就是对0(数量多的那一个类别)进行随机抽样,抽取的数量和1相同。之后合并两个数据(抽样的0和完整的1,两个数据)

很明显,合并后的数据数量肯定是少的多,我们进行最后的测试,自然不能在下采样数据集的测试集上做,下采样数据集不能反映原数据集的分布规律。

同样因为数据少的问题,下采样与过采样相比,误杀率会高(把0当做了1的部分数量较多),精度会低,recall相对会高那么一点。

过采样:使01两个数据一样多。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值