TensorFlow2.0之五种神经网络参数优化器

最新推荐文章于 2024-04-27 22:54:56 发布

Dymc

最新推荐文章于 2024-04-27 22:54:56 发布

阅读量1.5k

点赞数 3

分类专栏： Tensorflow 深度学习文章标签：神经网络深度学习 TensorFlow2.0

本文链接：https://blog.csdn.net/dally2/article/details/108260935

版权

Tensorflow 同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

深度学习

16 篇文章 8 订阅

订阅专栏

TensorFlow2.0之五种神经网络参数优化器

一、参数优化器简介
二、五种参数优化器
总结

一、参数优化器简介

待优化参数w，损失函数loss，学习率Ir，每次迭代一个batch，t表示当前batch迭代的总次数：
1，计算时刻损失函数关于当前参数的梯度 $g_{t} = \frac{\partial loss}{\partial (w_{t})}$
2，计算t时刻一阶动量 $m_{t}$ ，和二阶动量 $V_{t}$ ，
3，计算时刻下降梯度： $\eta _{t}=lr * \frac{m}{\sqrt{V}}$
4，计算t+1时刻参数: $w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m}{\sqrt{V}}$
一阶动量：与梯度相关的函数
二阶动量：与梯度平方相关的函数
客观来说，需优化的参数仅为输入的权重w和偏置b，不需要优化输入的特征值和超参数，并且优化器之间的差异也是因一阶动量和二阶动量赋值不同而不同。下面来分别详细介绍SGD、SGDM、Adagrad、Rmsprop、Adam五种参数优化器。

二、五种参数优化器

2.1 SGD（不含momentum的梯度下降算法）

$m_{t} = g_{t}$ ， $V_{t} = 1$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * g_{t}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr * g_{t}$

2.2 SGDM（含momentum的梯度下降算法，在SGD基础上增加一阶动量）

$m_{t} = \beta m_{t-1} + (1-\beta)g_{t}$ ， $V_{t} = 1$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * m_{t} = lr *[ \beta m_{t-1} + (1-\beta)g_{t}]$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr *[ \beta m_{t-1} + (1-\beta)g_{t}]$

注： $\beta = 0.9$

2.3 Adagrad（在SGD基础上增加二阶动量）

$m_{t} = g_{t}$ ， $V_{t} = \sum_{t=1}^{t} g_{t}^{2}$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * \frac{g_{t}}{\sqrt{\sum_{t=1}^{t} g_{t}^{2}}}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr * \frac{g_{t}}{\sqrt{\sum_{t=1}^{t} g_{t}^{2}}}$

2.4 RMSProp（在SGD基础上增加二阶动量）

$m_{t} = g_{t}$ ， $V_{t} = \beta V_{t-1}+(1-\beta) g_{t}^{2}$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * \frac{g_{t}}{\sqrt{ \beta V_{t-1}+(1-\beta) g_{t}^{2}}}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr * \frac{g_{t}}{\sqrt{ \beta V_{t-1}+(1-\beta) g_{t}^{2}}}$

注： $\beta = 0.9$

2.5 Adam（同时结合SGDM一阶动量和RMSProp二阶动量）

$m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1})g_{t}$ ， $V_{t} = \beta_{2} V_{t-1}+(1-\beta_{2}) g_{t}^{2}$
对 $m_{t}$ 和 $v_{t}$ 分别进行修正动量的偏差，改为：
$\hat{m_{t}} = \frac{m_{t}}{1-\beta_{1}^{t}}$
$\hat{V_{t}} = \frac{v_{t}}{1-\beta_{2}^{t}}$
$\eta _{t}=lr * \frac{\hat{m_{t}} }{\sqrt{\hat{V_{t}}}}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{\hat{m_{t}} }{\sqrt{\hat{V_{t}}}}$

注： $\beta1 = 0.9$ ， $\beta2=0.999$

总结

1.当lr=0.1 epoch=500 batch=32

loss变化趋势：
在这里插入图片描述
acc精确度变化趋势:

训练消耗时间：

从对比图中不难看出，损失函数loss衰减趋势图，Adam优化器衰减速度更快，且精确度在epoch=100后表现较为稳定，但是训练时间比前四个都要长，但为了得到较稳定的精确度，往往会以时间换准确度。

将参数改动，变为lr=0.01 epoch=100 batch=32

loss变化趋势：
在这里插入图片描述
准确度变化趋势：

训练耗时：

和之前的类似，就损失函数衰减的速度和结果准确率而言，还是Adam优化器比较占优势，但是由于调整了学习率lr和迭代的次数epoch，在时间上大大减少，均在2~4秒之间。

综上所述表明，找到适合的优化模型、学习率大小和迭代次数对模型的优化至关重要。同时Adam优化器可以作为常用优化器。

Dymc

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
TensorFlow2.0之五种神经网络参数优化器

五种参数优化器1 SGD（不含momentum的梯度下降算法）2 SGDM（含momentum的梯度下降算法，在SGD基础上增加一阶动量）3 Adagrad（在SGD基础上增加二阶动量）4 RMSProp（在SGD基础上增加二阶动量）5 Adam（同时结合SGDM一阶动量和RMSProp二阶动量）
复制链接

扫一扫