计算机视觉教程核心版(三)优化下篇优化方法

最新推荐文章于 2023-03-31 17:26:00 发布

tianzhiya121

最新推荐文章于 2023-03-31 17:26:00 发布

阅读量378

点赞数

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tianzhiya121/article/details/90168239

版权

人工智能专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本节承接优化中篇

在前面的章节中我们已经介绍了最简单的优化方法，随机梯度下降法。如下代码和图示例

左边代码中仅仅需要两行代码就可以实现SGD优化方法。右边的图展示了含有两个参数的损失函数等高线的图，不同颜色代表不同的损失函数，中间红色表示最小梯度。

SGD问题

SGD的问题在一个方向很敏感（下降较快）在其他方向效果次之，在高维方面更加明显。

2.SGD的另一个问题是由局部最小值点或者鞍点（零梯度）

对于鞍点梯度为零，则权重不会做出任何更新，高维度出现你更多。

而局部最小值是一个更大的问题，向每一个方向损失都将变大，当考虑高维度时候出现的较少。

由于我们的梯度来源于最小批次（可以想象，小批次的数据训练多了就容易发生过拟合，而过拟合就是因为学习到了许多噪声信息），所以它们含有更多的噪声，导致随机梯度下降法将耗费更多的时间训练。

如下图中，加入噪声的随机梯度下降比较曲折，这将导致孙连耗费更多时间。

SGD+Momentum

SGD优化方法和SGD+Momentum的优化方法区别显示如下：

Momentum的思想是，保持一个不随时间变化的速度，我们将梯度估计添加到这个速度上，然后在这个速度的方向上步进，而不是在梯度的方向上步进。在每一步我们采取当前的速度，然后用摩擦tho来对其衰减。摩擦系数有时取值比如0.9，之后加到梯度上。现在我们在速度的方向上前进，而不是原始梯度向量。它基本解决了SGD在刚才提出的各种问题。

即使在鞍点或者最小值点梯度为零或者卡住，我们有速度来使得损失冲破最小值点或者鞍点。示例如图

Nesterov Momentum是原始的一种变形，但更加好用。其公式以及换元后的公式如下

另一种优化方法

RMSprop是AdaGrad的改进，一般不倾向于使用AdaGrad，因为它容易卡住

无论是Momentum还是RMSprop都比单纯的SGD效果要好。

Adam集合和上述的优化方法的优点，针对许多问题都能有好的表现，因此作为优化函数是首选。

其完整形式如下

学习率衰减方式

在训练过程中，随着时间退役经常减小学习率。

减小学习率的方法有如下

每训练一定的epoch就将学习率减少一般
指数衰减

$\alpha = \alpha_0 e^{-k t}$

1/t衰减， $\alpha = \alpha_0 / (1 + k t )$

带动量的SGD经常用这种办法，然而像Adam这种优化算法就很少用。学习率衰减是一种二姐参数调试办法，不应该在一开始就使用。

梯度检验待续

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉教程核心版(三)优化下篇优化方法

本节承接优化中篇在前面的章节中我们已经介绍了最简单的优化方法，随机梯度下降法。如下代码和图示例左边代码中仅仅需要两行代码就可以实现SGD优化方法。右边的图展示了含有两个参数的损失函数等高线的图，不同颜色代表不同的损失函数，中间红色表示最小梯度。SGD问题SGD的问题在一个方向很敏感（下降较快）在其他方向效果次之，在高维方面更加明显。2.SGD的另一个问题是由局部最小值点或...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。