提前终止法与正则化法之间关系

本文探讨了提前终止法和正则化法在优化过程中的关系,通过数学分析证明在特定条件下,两种方法可以达到近似等价。通过对比两种方法的迭代轨迹和性能指标,揭示了它们在控制过拟合方面的相似性,并给出了迭代次数与正则化参数之间的近似转换关系。
摘要由CSDN通过智能技术生成

前言


前两篇博客(从贝叶斯角度理解正则化正则化)分别介绍了提前终止法和正则化法。

Snipaste_2019-11-19_18-36-48.png

它们可以近似等价的吗?怎么近似等价?

20191109213126.png

左边这张图轮廓线表示负对数似然函数的轮廓,虚线表示从原点开始的SGD所经过的轨迹。提前终止法的轨迹在较早的$\tilde \omega 点 终 止 , 而 不 是 在 停 止 在 最 小 化 代 价 的 点 点终止,而不是在停止在最小化代价的点 {\omega ^{\text{*}}}$处;
右边这张图使用了L2正则化法。虚线圆圈表示L2惩罚的轮廓,L2惩罚使得总代价的最小值比非正则化代价的最小值更靠近原点。
可以看出,两种方法近似等价。

接下来对两者进行分析。

提前终止法分析


新文档 2019-11-09 17.19.43.jpg

对于上图所示的单层线性网络,该线性网络的均方误差性能函数时二次的,即:

F ( x ) = c + d T x + 1 2 x T Ax F(x) = c + d^{T}x + \frac{1}{2}x^{T}\text{Ax} F(x)=c+dTx+21xTAx

其中,为Hessian矩阵。

① 为了研究提前终止法性能,我们将分析最速下降法在线性网络上的演化。由式10.16知性能指标的梯度:

∇ F ( x ) = A x + d \nabla F(x) = Ax + d F(x)=Ax+d

最速下降法:

x k + 1 = x k − α g k = x k − α ( A x k + d ) x_{k + 1} = x_{k} - \alpha g_{k} = x_{k} - \alpha(Ax_{k} + d) xk+1=xkαgk=xkα(Axk+d)

对于二次性能指标,极小值出现在下面的点:

x ML = − A − 1 d x^{\text{ML}} = - A^{- 1}d xML=A1d

上标ML表示结果使似然函数极大化同时使误差平方和极小化。则

x k + 1 = x k − α ( A x k + d ) = x k − α A ( x k + A − 1 d ) = x k − α A ( x k + x ML ) = [ I − αA ] x k + α A x ML = M x k + [ I − M ] A x ML {x_{k + 1} = x_{k} - \alpha(Ax_{k} + d)}\\{\text{}= x_{k} - \alpha A(x_{k} + A^{- 1}d)}\\{\text{} = x_{k} - \alpha A(x_{k} + x^{\text{ML}})}\\{\text{} = \left\lbrack I - \text{αA} \right\rbrack x_{k} + \alpha Ax^{\text{ML}}}\\{\text{} = Mx_{k} + \left\lbrack I - M \right\rbrack Ax^{\text{ML}}} xk+1=xkα(Axk+d)=xkαA(xk+A1d)=xkαA(xk+xML)=[IαA]xk+αAxML=Mx

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值