常见的梯度超参数更新方法_超参数的更新-CSDN博客

本文链接：https://blog.csdn.net/u013043762/article/details/115404069

Adagrad :Root Mean Square

$\theta_i^1 =\theta_i^0-\tfrac{\eta}{\sigma_i^0}g_i^0 \\ \sigma_i^0 = \sqrt{(g_i^0)^2}=｜g_i^0｜$

$\theta_i^2 =\theta_i^1-\tfrac{\eta}{\sigma_i^1}g_i^1 \\ \sigma_i^1 = \sqrt{\tfrac{1}{2}[ (g_i^1)^2+(g_i^1)^2]}$
即
$\theta_i^{t+1} =\theta_i^t-\tfrac{\eta}{\sigma_i^t}g_i^t \\ \sigma_i^t = \sqrt{\tfrac{1}{t+1}\sum\limits_{i=0}^t{(g_i^t)^2}}$
当梯度大的时候，分母变大，总体变小，反之总体变小。
在这里插入图片描述

RMSProp

$\begin{matrix} \theta_i^1 =\theta_i^0-\tfrac{\eta}{\sigma_i^0}g_i^0 \\ \\ \sigma_i^0 = \sqrt{(g_i^0)^2}=｜g_i^0｜ \end{matrix}$

$\begin{matrix} \theta_i^2 =\theta_i^1-\tfrac{\eta}{\sigma_i^1}g_i^1 \\ \\ \sigma_i^1 = \sqrt{\alpha(\sigma_i^0)^2+(1-\alpha)(g_i^1)^2} \end{matrix}$

$\begin{matrix} \theta_i^3 =\theta_i^2-\tfrac{\eta}{\sigma_i^2}g_i^2 \\ \\ \sigma_i^2 = \sqrt{\alpha(\sigma_i^1)^2+(1-\alpha)(g_i^2)^2} \end{matrix}$
即
$\begin{matrix} \theta_i^{t+1} =\theta_i^t-\tfrac{\eta}{\sigma_i^t}g_i^t \\ \\ \sigma_i^t = \sqrt{\alpha(\sigma_i^{t-1})^2+(1-\alpha)(g_i^t)^2} \end{matrix}$

Adam

在这里插入图片描述