理论上,从VC维的角度可以解释,正则化能直接减少模型复杂度。(公式理论略)
直观上,对L1正则化来说,求导后,多了一项η * λ * sgn(w)/n,在w更新的过程中:
当w为正时,新的w减小,当w为负时,新的w增大,意味着新的w不断向0靠近,即减小了模型复杂度。(PS:也是为什么L1能得到稀疏解的一个参考答案)
对L2正则化来说,一方面,w的更新过程为:
若没有L2,则w前面的系数为1,η、λ、n都是正的,所以 1−ηλ/n小于1,它的效果是减小w,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。
模型的过拟合是因为考虑了过多的“不合适”样本点,这样,求导的时候,导数值很大,而自变量的值可大可小,所以意味着系数w要很大,所以当我们让w减少的时候,即意味着忽略这些样本点,即减小了模型的复杂度,解决了过拟合