深度学习总结二：优化器

最新推荐文章于 2023-07-07 13:51:00 发布

su_poplar

最新推荐文章于 2023-07-07 13:51:00 发布

阅读量263

点赞数

分类专栏：深度学习知识点总结文章标签： momentu Ada RMSProp Adam 梯度下降

本文链接：https://blog.csdn.net/qq_34553043/article/details/83045850

版权

深度学习知识点总结专栏收录该内容

7 篇文章 1 订阅

订阅专栏

深度学习总结二：优化器

对应代码

梯度下降

逻辑回归代码
附梯度下降w变化曲线用于对比
在这里插入图片描述

momentum

动量法，原理在于一个方向的速度可以积累，而且越积累越大；通过不同训练样本求得梯度时，在最优的方向的梯度，始终都会增大最优方向上的速度。因此，可以减少许多震荡。
对用代码：

self.w_update = self.gamma * self.w_update + (1 - self.gamma) * w_grad

在这里插入图片描述
对比梯度下降，在20处就已经处于稳定。

Ada

假设存在w1和w2，且两者更新速度不一致。如下图：
在这里插入图片描述
这样Ada就出现了。
它的原理：使得每一个参数更新都会有自己与众不同的学习率。
对应代码：

self.s += np.power(w_grad, 2)
w = w - self.learning_rate * (w_grad / np.sqrt(self.s))

在这里插入图片描述
Ada解决出现的拟合速度不一致问题。缺点：因为梯度要除以距离，长时间优化时距离越大，梯度就越来越小，效率低迷。

RMSProp

RMSProp原理：测试初期因为加了s_correct所以拟合速度会加快,用动量的流平均思想，到了一定时间，总的里程开始不变,解决Ada后期效率低迷问题。
对应代码：

self.s = self.beta * self.s + (1 - self.beta) * (w_grad**2)
s_correct = self.s/(1 - self.beta ** (i+1))
w = w - self.learning_rate * w_grad / np.sqrt(s_correct)

在这里插入图片描述

Adam

集合前面几个算法的优点
对应代码：

self.v = self.gamma * self.v + (1 - self.gamma) * w_grad
v_correct = self.v / (1 - self.gamma ** (i+1))
self.s = self.beta * self.s + (1 - self.beta) * (w_grad**2)
s_correct = self.s/(1 - self.beta ** (i+1))
w = w - self.learning_rate * (v_correct/np.sqrt(self.s))

在这里插入图片描述

su_poplar

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习总结二：优化器

深度学习总结二：优化器梯度下降momentumAdaRMSPropAdam对应代码梯度下降逻辑回归代码附梯度下降w变化曲线用于对比momentum动量法，原理在于一个方向的速度可以积累，而且越积累越大；通过不同训练样本求得梯度时，在最优的方向的梯度，始终都会增大最优方向上的速度。因此，可以减少许多震荡。对用代码：self.w_update = self.gamma * self....
复制链接

扫一扫

专栏目录