梯度下降法

Better-1

于 2021-03-24 21:38:42 发布

阅读量108

点赞数

分类专栏：深度学习项目深度学习剑指

原文链接：https://blog.csdn.net/algorithmPro/article/details/107399115

版权

剑指同时被 3 个专栏收录

192 篇文章 4 订阅

订阅专栏

深度学习

29 篇文章 2 订阅

订阅专栏

深度学习项目

15 篇文章 1 订阅

订阅专栏

Adam、RMSProp、Momentum、Adagrad、

Momentum动量法
考虑了上一次步伐的信息。—相当于速度。

Adagrad—梯度的累积平方和作为分母
在这里插入图片描述

Adagrad 解决这个问题的思路是: 你已经更新的特征越多，你将来更新的就越少，这样就有机会让其它特征(例如稀疏特征)赶上来。Adagrad 将采取直线路径，而梯度下降(或相关的动量)采取的方法是“让我先滑下陡峭的斜坡，然后才可能担心较慢的方向”。
sum_of_gradient_squared = previous_sum_of_gradient_squared + gradient²
delta = -learning_rate * gradient / sqrt(sum_of_gradient_squared)
theta += delta

RMSPROP

AdaGrad 的问题在于它非常慢。这是因为梯度的平方和只会增加而不会减小。Rmsprop (Root Mean Square Propagation)通过添加衰减因子来修复这个问题。
在这里插入图片描述

sum_of_gradient_squared = previous_sum_of_gradient_squared * decay_rate+ gradient² * (1- decay_rate)
delta = -learning_rate * gradient / sqrt(sum_of_gradient_squared)
theta += delta

Adam

Adam (Adaptive Moment Estimation)同时兼顾了动量和 RMSProp 的优点。
包含了动量的一阶矩和RMSPROP的二阶矩。

sum_of_gradient = previous_sum_of_gradient * beta1 + gradient * (1 - beta1) [Momentum]
sum_of_gradient_squared = previous_sum_of_gradient_squared * beta2 + gradient² * (1- beta2) [RMSProp]
delta = -learning_rate * sum_of_gradient / sqrt(sum_of_gradient_squared)
theta += delta

Better-1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法

Adam、RMSProp、Momentum、Adagrad、Momentum动量法考虑了上一次步伐的信息。—相当于速度。Adagrad—梯度的累积平方和作为分母Adagrad 解决这个问题的思路是: 你已经更新的特征越多，你将来更新的就越少，这样就有机会让其它特征(例如稀疏特征)赶上来。Adagrad 将采取直线路径，而梯度下降(或相关的动量)采取的方法是“让我先滑下陡峭的斜坡，然后才可能担心较慢的方向”。sum_of_gradient_squared = previous_sum_of_gra
复制链接

扫一扫