前言
前两篇博客(从贝叶斯角度理解正则化、正则化)分别介绍了提前终止法和正则化法。
它们可以近似等价的吗?怎么近似等价?
左边这张图轮廓线表示负对数似然函数的轮廓,虚线表示从原点开始的SGD所经过的轨迹。提前终止法的轨迹在较早的$\tilde \omega 点 终 止 , 而 不 是 在 停 止 在 最 小 化 代 价 的 点 点终止,而不是在停止在最小化代价的点 点终止,而不是在停止在最小化代价的点{\omega ^{\text{*}}}$处;
右边这张图使用了L2正则化法。虚线圆圈表示L2惩罚的轮廓,L2惩罚使得总代价的最小值比非正则化代价的最小值更靠近原点。
可以看出,两种方法近似等价。
接下来对两者进行分析。
提前终止法分析
对于上图所示的单层线性网络,该线性网络的均方误差性能函数时二次的,即:
F ( x ) = c + d T x + 1 2 x T Ax F(x) = c + d^{T}x + \frac{1}{2}x^{T}\text{Ax} F(x)=c+dTx+21xTAx
其中,为Hessian矩阵。
① 为了研究提前终止法性能,我们将分析最速下降法在线性网络上的演化。由式10.16知性能指标的梯度:
∇ F ( x ) = A x + d \nabla F(x) = Ax + d ∇F(x)=Ax+d
最速下降法:
x k + 1 = x k − α g k = x k − α ( A x k + d ) x_{k + 1} = x_{k} - \alpha g_{k} = x_{k} - \alpha(Ax_{k} + d) xk+1=xk−αgk=xk−α(Axk+d)
对于二次性能指标,极小值出现在下面的点:
x ML = − A − 1 d x^{\text{ML}} = - A^{- 1}d xML=−A−1d
上标ML表示结果使似然函数极大化同时使误差平方和极小化。则
x k + 1 = x k − α ( A x k + d ) = x k − α A ( x k + A − 1 d ) = x k − α A ( x k + x ML ) = [ I − αA ] x k + α A x ML = M x k + [ I − M ] A x ML {x_{k + 1} = x_{k} - \alpha(Ax_{k} + d)}\\{\text{}= x_{k} - \alpha A(x_{k} + A^{- 1}d)}\\{\text{} = x_{k} - \alpha A(x_{k} + x^{\text{ML}})}\\{\text{} = \left\lbrack I - \text{αA} \right\rbrack x_{k} + \alpha Ax^{\text{ML}}}\\{\text{} = Mx_{k} + \left\lbrack I - M \right\rbrack Ax^{\text{ML}}} xk+1=xk−α(Axk+d)=xk−αA(xk+A−1d)=xk−αA(xk+xML)=[I−αA]xk+αAxML=Mx