神经网络参数优化器

最新推荐文章于 2023-02-13 08:02:00 发布

人工智能小a

最新推荐文章于 2023-02-13 08:02:00 发布

阅读量441

点赞数 1

分类专栏：深度学习文章标签：神经网络人工智能深度学习

本文链接：https://blog.csdn.net/a_123zxy/article/details/121053389

版权

深度学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

神经网络参数优化器

符号及含义

w：待优化参数
loss：损失函数
lr：学习率
batch：一次迭代数量的多少
t：当前迭代的总系数

迭代步骤

(1) 计算 t 时刻损失函数关于当前参数的梯度：
$g_t = ▽loss =\frac{d loss}{d(w_t)}$
(2) 计算 t 时刻一阶动量 $m_t$ （和梯度相关的函数）和二阶动量 $V_t$ （和梯度平方相关的函数）
(3) 计算 t 时刻下降梯度：
$\eta_t = l_r * m_t / \sqrt{V_t}$
(4) 计算 t+1 时刻参数：
$W_{t+1} = W_t-\eta_t=W_t-l_r*m_t/\sqrt{V_t}$

常用优化器

SGD（无momentum）:
（1） $m_t=g_t$ 、 $V_t=1$
（2） $\eta_t=l_r*m_t/\sqrt{V_t}=l_r*g_t$
（3） $W_{t+1}=W_t-\eta_t*m_t/\sqrt{V_t}=W_t-l_r*g_t$
$W_{t+1}=W_t-l_r*\frac{d loss}{d(w_t)}$
程序实现如下：
```
w1.assign_sub(lr*grads[0])
b1.assign_sub(lr*grads[1])
```
SGDM（含monentum的SGD），在SGD的基础上增加一阶动量：
（1） $m_t=\beta*m_{t-1}+(1-\beta)*g_t$ 、 $V_t=1$ （ $\beta$ ：趋近1的超参数）
（2） $\eta_t=l_r*m_t/\sqrt{V_t}=l_r*m_t=l_r*(\beta*m_{t-1}+(1-\beta)*g_t)$
（3） $W_{t+1}=W_t-\eta_t=W_t-l_r*(\beta*m_{t-1}+(1-\beta)*g_t)$

程序实现如下：
```
m_w,m_b = 0, 0
beta = 0.9
m_w = beta*m_w + (1-beta)*grads[0]
m_b = beta*m_b + (1-beta)*grads[1]
w1.assign_sub(lr*m_w)
w2.assign_sub(lr*m_b)
```
Adagrad，在SGD基础上增加二阶动量：
（1） $m_t=g_t$ 、 $V_t=\sum_{\tau=1}^tg_\tau^2$
（2） $\eta_t=l_r*m_t/\sqrt{V_t}=l_r*g_t/\sqrt{\sum_{\tau=1}^tg_\tau^2}$
（3） $W_{t+1}=W_t-\eta_t=W_t-l_r*g_t/(\sqrt{\sum_{\tau=1}^tg_\tau^2})$

程序实现如下：
```
v_w,v_b = 0,0
v_w += tf.square(grads[0])
v_b += tf.square(grads[1])
w1.assign_sub(lr*grades[0]/tf.sqrt(v_w))
b1.assign_sub(lr*grads[1]/tf.sqrt(v_b))
```
RMSProp，在SGD基础上增加二阶动量：
（1） $m_t=g_t$ 、 $V_t=\beta*V_{t-1}+(1-\beta)*g_t^2$
（2） $\eta_t=l_r*m_t/\sqrt{V_t}=l_r*g_t/(\sqrt{\beta*V_{t-1}+(1-\beta)*g_t^2})$
（3） $W_{t+1}=W_t-\eta_t=W_t=lr*g_t/(\sqrt{\beta*V_{t-1}+(1-\beta)*g_t^2})$

程序实现如下：
```
v_w,v_b = 0,0
beta = 0.9
v_w = beta*v_w+(1-beta)*tf.square(grads[0])
v_b = beta*v_b+(1-beta)*tf.square(grads[1])
w1.assign_sub(lr*grads[0]/tf.sqrt(v_w))
b1.assign_sub(lr*grads[1]/tf.sqrt(v_b))
```
Adam，结合SGDM一阶动量和RMSProp二阶动量：
（1） $m_t=\beta_1*m_{t-1}+(1-\beta_1)*g_t$
（2）修正一阶动量的偏差： $\hat{m_t}=\frac{m_t}{1-\beta_1^t}$
（3） $V_t=\beta_2*V_{step-1}+(1-\beta_2)*g_t^2$
（4）修正二阶动量的偏差： $\hat{V_t}=\frac{V_t}{1-\beta_2^t}$
（5） $\eta_t=l_r*\hat{m_t}/\sqrt{\hat{V_t}}=l_r*\frac{m_t}{1-\beta_1^t}/\sqrt{\frac{V_t}{1-\beta_2^t}}$
（6） $W_{t+1}=W_t-\eta_t=W_t-l_r*\frac{m_t}{1-\beta_1^t}/\sqrt{\frac{V_t}{1-\beta_2^t}}$

程序实现如下：

m_w,m_b = 0,0
v_w,v_b = 0,0
beta1,beta2 = 0.9,0.999
delta_w,delta_b = 0,0
global_step = 0

m_w = betal*m_w + (1 - beta1)*grads[0]
m_b = betal*m_b + (1 - beta1)*grads[1]
v_w = beta2*v_w + (1 - beta2)*tf.square(grads[0])
v_b = beta2*v_b + (1 - beta2)*tf.square(grads[1])

m_w_correction = m_v/(1 - tf.pow(betal,int(global_step)))
m_b_correction = m_b/(1 - tf.pow(betal,int(global_step)))
v_w_correction = v_w/(1 - tf.pow(beta2,int(global_step)))
v_b_correction = v_b/(1 - tf.pow(beta2,int(global_step)))

w1.assign_sub(l_r*m_w_correction/tf.sqrt(v_w_correction))
b1.assign_sub(l_r*m_b_correction/tf.sqrt(v_b_correction))