神经网络之梯度下降

最新推荐文章于 2022-11-19 17:08:27 发布

-倾城之恋-

最新推荐文章于 2022-11-19 17:08:27 发布

阅读量383

点赞数

分类专栏：优化神经网络

本文链接：https://blog.csdn.net/P081513083/article/details/100175207

版权

神经网络同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

优化

12 篇文章 0 订阅

订阅专栏

神经网络是一个神奇的黑盒子，其求解方法主要是各种梯度下降迭代算法。
$W\leftarrow W+\Delta W_t$

梯度下降：

梯度为基于全体样本的平均梯度，学习率为静态学习率。
$\Delta W_t=-\eta g_t$

随机梯度下降：

梯度为基于单个样本的梯度，学习率为静态学习率。
$\Delta W_t=-\eta g_t$

Batch梯度下降：

梯度为基于多个样本的平均梯度，更准确点。速度介于梯度下降和随机梯度下降之间。学习率为静态学习率。
$\Delta W_t=-\eta g_t$

Momentum：

当前时刻参数更新量为前一时刻参数更新量和当前梯度的加权和。主要成分为前一时刻参数更新量。因为真实梯度应该局部平滑，这里相当于对梯度的滑动平均，算法更稳定，且速度加快。当冲量很大时，可以跳出某些局部最优点。
$\Delta W_t=\alpha\Delta W_{t-1}-\eta g_t$ 或 $\Delta W_t=\alpha\Delta W_{t-1}-(1-\alpha)\eta g_t$
当 $\alpha=0$ 时，退化为一般梯度下降。

Adagrad:

学习率自动变化，实际上为每个参数赋予一个动态减小的学习率。设置基准学习率后，当前时刻学习率与该参数历史积累梯度平方和的开方成反比。因为该参数历史梯度平方和不断增长，所以学习率会不断减小。
$r\leftarrow r+g_t\odot g_t$
$\Delta W_t=-\frac{\eta}{\sqrt{r}+\delta}\odot g_t$

RMSprop，均方根传播：

在Adagrad中，学习率可能很快减小为0，然后学习就停止了。设置基准学习率后，Hinton考虑改变梯度平方和的积累和为指数加权积累和。也就是让当前时刻学习率与该参数的梯度平方的指数加权积累和的开方成反比。可以丢弃遥远过去的历史信息。[实际是梯度的二阶矩估计]。
$r\leftarrow \beta r+(1-\beta)g_t\odot g_t$
$\Delta W_t=-\frac{\eta}{\sqrt{r}+\delta}\odot g_t$

Adadelta：

和RMSprop类似，只是在将RMSprop中基准学习率替换为参数历史更新量的开方。值得注意的是参数历史更新量的计算发生在参数更新后，当前时刻参数历史更新量等于上一个时刻参数历史更新量与当前时刻参数更新量平方和的加权和。
$r\leftarrow \beta r+(1-\beta)g_t\odot g_t$
$\Delta W_t=-\frac{s}{\sqrt{r}+\delta}\odot g_t$
$s\leftarrow \beta s+ (1-\beta)\Delta W_t\odot\Delta W_t$

Adam：

相当于结合了RMSprop和动量机制。当前时刻参数更新量由梯度本身改为梯度的一阶矩估计，当前时刻学习率与梯度的二阶矩估计的开方成反比。在算法初始阶段，由于一阶矩估计和二阶估计初始值为0对训练有不利影响，加入了矫正因子（当前一阶矩估计或二阶矩估计除以1-加权因子的t次方）。[梯度的一阶矩估计与二阶矩估计，实际分别是历史梯度的指数加权和，以及历史梯度平方的指数加权和]。
$s\leftarrow \alpha s+(1-\alpha)g_t$
$r\leftarrow \beta r+(1-\beta)g_t\odot g_t$
$\hat s\leftarrow \frac{s}{1-\alpha^t}$
$\hat r\leftarrow \frac{r}{1-\beta^t}$
$\Delta W_t=-\frac{\eta}{\sqrt{r}+\delta}\odot \hat{s}$

注意：
一阶矩
二阶矩
冲量
指数加权和

-倾城之恋-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络之梯度下降

神经网络是一个神奇的黑盒子，其求解方法主要是各种梯度下降迭代算法。梯度下降：，梯度为基于全体样本的平均梯度，学习率为静态学习率。随机梯度下降：梯度为基于单个样本的梯度，学习率为静态学习率。batch梯度下降：梯度为基于多个样本的平均梯度，更准确点。速度介于梯度下降和batch梯度下降之间。学习率为静态学习率。momentum：梯度为当前梯度和上次参数更新量的加权和。主要成分为上次参数更新量...
复制链接

扫一扫