提前终止法与正则化法之间关系

最新推荐文章于 2024-01-07 02:10:07 发布

scyf340

最新推荐文章于 2024-01-07 02:10:07 发布

阅读量736

点赞数

分类专栏：学习文章标签：提前终止法正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sc2079/article/details/103148877

版权

本文探讨了提前终止法和正则化法在优化过程中的关系，通过数学分析证明在特定条件下，两种方法可以达到近似等价。通过对比两种方法的迭代轨迹和性能指标，揭示了它们在控制过拟合方面的相似性，并给出了迭代次数与正则化参数之间的近似转换关系。

摘要由CSDN通过智能技术生成

文章目录

前言

前两篇博客（从贝叶斯角度理解正则化、正则化）分别介绍了提前终止法和正则化法。

它们可以近似等价的吗？怎么近似等价？

左边这张图轮廓线表示负对数似然函数的轮廓，虚线表示从原点开始的SGD所经过的轨迹。提前终止法的轨迹在较早的$\tilde \omega $点终止，而不是在停止在最小化代价的点$ {\omega ^{\text{*}}}$处；
右边这张图使用了L2正则化法。虚线圆圈表示L2惩罚的轮廓，L2惩罚使得总代价的最小值比非正则化代价的最小值更靠近原点。
可以看出，两种方法近似等价。

接下来对两者进行分析。

提前终止法分析

新文档 2019-11-09 17.19.43.jpg

对于上图所示的单层线性网络，该线性网络的均方误差性能函数时二次的，即：

$d^{T}x + \frac{1}{2}x^{T}\text{Ax}$

其中，为Hessian矩阵。

① 为了研究提前终止法性能，我们将分析最速下降法在线性网络上的演化。由式10.16知性能指标的梯度：

$\nabla F(x) = Ax + d$

最速下降法：

$x_{k + 1} = x_{k} - \alpha g_{k} = x_{k} - \alpha(Ax_{k} + d)$

对于二次性能指标，极小值出现在下面的点：

$x^{\text{ML}} = - A^{- 1}d$

上标ML表示结果使似然函数极大化同时使误差平方和极小化。则

${x_{k + 1} = x_{k} - \alpha(Ax_{k} + d)}\\{\text{}= x_{k} - \alpha A(x_{k} + A^{- 1}d)}\\{\text{} = x_{k} - \alpha A(x_{k} + x^{\text{ML}})}\\{\text{} = \left\lbrack I - \text{αA} \right\rbrack x_{k} + \alpha Ax^{\text{ML}}}\\{\text{} = Mx_{k} + \left\lbrack I - M \right\rbrack Ax^{\text{ML}}}$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
提前终止法与正则化法之间关系

文章目录前言提前终止法分析贝叶斯正则化法分析比较参考资料前言前两篇博客（从贝叶斯角度理解正则化、正则化）分别介绍了提前终止法和正则化法。它们可以近似等价的吗？怎么近似等价？左边这张图轮廓线表示负对数似然函数的轮廓，虚线表示从原点开始的SGD所经过的轨迹。提前终止法的轨迹在较早的$\tilde \omega 点终止，而不是在停止在最小化代价的点点终止，而不是在停止在最小化代价的点点终止...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。