常见的梯度超参数更新方法

Adagrad :Root Mean Square

θ i 1 = θ i 0 − η σ i 0 g i 0 σ i 0 = ( g i 0 ) 2 = | g i 0 | \theta_i^1 =\theta_i^0-\tfrac{\eta}{\sigma_i^0}g_i^0 \\ \sigma_i^0 = \sqrt{(g_i^0)^2}=|g_i^0| θi1=θi0σi0ηgi0σi0=(gi0)2 =gi0

θ i 2 = θ i 1 − η σ i 1 g i 1 σ i 1 = 1 2 [ ( g i 1 ) 2 + ( g i 1 ) 2 ] \theta_i^2 =\theta_i^1-\tfrac{\eta}{\sigma_i^1}g_i^1 \\ \sigma_i^1 = \sqrt{\tfrac{1}{2}[ (g_i^1)^2+(g_i^1)^2]} θi2=θi1σi1ηgi1σi1=21[(gi1)2+(gi1)2]

θ i t + 1 = θ i t − η σ i t g i t σ i t = 1 t + 1 ∑ i = 0 t ( g i t ) 2 \theta_i^{t+1} =\theta_i^t-\tfrac{\eta}{\sigma_i^t}g_i^t \\ \sigma_i^t = \sqrt{\tfrac{1}{t+1}\sum\limits_{i=0}^t{(g_i^t)^2}} θit+1=θitσitηgitσit=t+11i=0t(git)2
当梯度大的时候,分母变大,总体变小,反之总体变小。
在这里插入图片描述

RMSProp

θ i 1 = θ i 0 − η σ i 0 g i 0 σ i 0 = ( g i 0 ) 2 = | g i 0 | \begin{matrix} \theta_i^1 =\theta_i^0-\tfrac{\eta}{\sigma_i^0}g_i^0 \\ \\ \sigma_i^0 = \sqrt{(g_i^0)^2}=|g_i^0| \end{matrix} θi1=θi0σi0ηgi0σi0=(gi0)2 =gi0

θ i 2 = θ i 1 − η σ i 1 g i 1 σ i 1 = α ( σ i 0 ) 2 + ( 1 − α ) ( g i 1 ) 2 \begin{matrix} \theta_i^2 =\theta_i^1-\tfrac{\eta}{\sigma_i^1}g_i^1 \\ \\ \sigma_i^1 = \sqrt{\alpha(\sigma_i^0)^2+(1-\alpha)(g_i^1)^2} \end{matrix} θi2=θi1σi1ηgi1σi1=α(σi0)2+(1α)(gi1)2

θ i 3 = θ i 2 − η σ i 2 g i 2 σ i 2 = α ( σ i 1 ) 2 + ( 1 − α ) ( g i 2 ) 2 \begin{matrix} \theta_i^3 =\theta_i^2-\tfrac{\eta}{\sigma_i^2}g_i^2 \\ \\ \sigma_i^2 = \sqrt{\alpha(\sigma_i^1)^2+(1-\alpha)(g_i^2)^2} \end{matrix} θi3=θi2σi2ηgi2σi2=α(σi1)2+(1α)(gi2)2

θ i t + 1 = θ i t − η σ i t g i t σ i t = α ( σ i t − 1 ) 2 + ( 1 − α ) ( g i t ) 2 \begin{matrix} \theta_i^{t+1} =\theta_i^t-\tfrac{\eta}{\sigma_i^t}g_i^t \\ \\ \sigma_i^t = \sqrt{\alpha(\sigma_i^{t-1})^2+(1-\alpha)(g_i^t)^2} \end{matrix} θit+1=θitσitηgitσit=α(σit1)2+(1α)(git)2

Adam

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值