防止过拟合方法之添加正则项的思想原理及作用
一、两种风险最小化
李航老师的统计学习方法中提到了两种风险最小化,一种是经验风险最小化,另一种是结构风险最小化,
首先我们知道模型的损失越小那么就表明模型越好,模型的输入X以及输出Y均为随机变量,遵循联合分布,所以理论上模型关于联合分布P(X,Y)的平均损失(称为期望损失)如下:
给定训练集,模型关于训练集的平均损失称为经验风险,如下:
根据大数定律,当样本容量趋于无穷大时,便有经验风险趋于期望损失,所以这便是可以用经验风险估计期望风险的原因。于是便有了经验风险最小化原则:
但是现实情况是,我们无法获取无限的训练集,而且训练集往往是真实数据集的一个很小的子集, 并不能很好的反映全部数据的真实分布,所以经验风险最小化很容易出现虽然在训练集上错误率低,但在测试集上错误率高的情况,这种情况就是过拟合。过拟合是由于训练数据