L2正则化为什么有效
无论是学过机器学习还是深度学习的同学一定知道正则化可以缓解过拟合,最常用的就是L2正则化,即在损失函数 J ( θ ) J(\theta) J(θ)上加上参数的L2范数 λ ∣ ∣ θ ∣ ∣ 2 \lambda||\theta||_{2} λ∣∣θ∣∣2,不过一般也不开根号了,也就是直接加 λ ∑ i θ i 2 \lambda\sum\limits_{i}\theta_{i}^{2} λi∑θi2, λ \lambda λ是正则化因子,它的大小决定了你有多想让参数向0靠近。
如果被问到缓解过拟合的方法,那么L2正则化肯定是要知道的。如果继续追问为什么L2正则化有效呢?也许可以回答:因为把参数加到了损失函数里,可以在梯度下降时让参数变得更小,防止模型能够拟合特别复杂的函数。但又要问了,那为什么参数小得接近0就有效呢?仅仅是intuition所以大家都这样做也这样认为吗?事实上这是可以从概率论的角度来解释的,下面用最简单的线性回归来介绍,我们用下标 j j j表示第 j j j个特征,上标 ( i ) \left(i\right) (i)表示数据集中的第 i i i条数据。
高斯分布
设模型参数为 θ \theta θ(bias包含在 θ 0 = b , x 0 = 1 \theta_{0}=b,x_{0}=1 θ0=b,x0=1里了),模型的hypothesis为
y ^ = θ T x \hat{y} = \theta^{T}x y^=θTx
y ^ \hat{y} y^就是我们模型做出的预测, y y y是现实世界真实的标签,不过 y y y是带有噪音的,真实世界的数据不可能是完美的,其中大都夹杂着噪音信号,我们假设
y = θ T x + ϵ y = \theta^{T}x + \epsilon y=θ