问题:
为什么一定要处理样本不均衡?
什么是交叉检验
什么是正则化惩罚
怎么运用交叉检验
怎么运用正则化惩罚
以信用卡异常来举例,0是正常,1是异常
简单观察数据(这里的数据已经经过预处理),发现样本不均衡情况,(常理)0的数量比1的数量多得多。
处理样本不均衡有两种方法,一是下采样(使之一样少),二是过采样(使之一样多)
为什么一定要处理样本不均衡?
如果样本不均衡的时候,训练模型的时候,容易误杀,换而言之,就是容易找不出异常的,不清楚异常的数据是怎样的
因为模型遇到的大多数都是正常的数据,那么参数也很容易是为了能够识别正常的数据而进行的调整。
但我们的目标很明显——是为了识别出那些异常的数据。那么就不可以直接用样本不均衡的模型来预测,效果肯定是不好的。
下采样:使01两个类别的数据一样少。
那么就是对0(数量多的那一个类别)进行随机抽样,抽取的数量和1相同。之后合并两个数据(抽样的0和完整的1,两个数据)
很明显,合并后的数据数量肯定是少的多,我们进行最后的测试,自然不能在下采样数据集的测试集上做,下采样数据集不能反映原数据集的分布规律。
同样因为数据少的问题,下采样与过采样相比,误杀率会高(把0当做了1的部分数量较多),精度会低,recall相对会高那么一点。
过采样:使01两个数据一样多。