梯度下降优化器原理

1.Adagrad

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

为什么学习率要随着参数更新次数变化呢,而且是越来越小呢?
因为起初我们在梯度下降时候需要大跨步走,快速下降节省时间,当到达最优参数的附近h时候大跨步走就有可能错过最优点,导致一直无法收敛,所以到最优参数附近的时候应该小步走,而且是越来越小。
步骤:
1.求根号下在此之前包括本次所有偏导平方之和
2.学习率除以2得到的值得到变化的学习率
3.与本次偏导gt相乘得到w的变化值
4.wt与3得到的值相减得到wt+1,完成参数更新

2.RMSProb

在这里插入图片描述
和Adagrad原理基本一致,只是加了α,可以控制给当前次偏导大的权重,给过去偏导小的权重。
RMSProb、Adagrad解决的是学习率的问题
步骤:
1.将本次之前的偏导项平方后之和乘以α
2.将本次偏导项平方后乘以(1-α)
3.求1,2结果和开根号
4.学习率除以3得到的结果得到新的学习率
5.新的学习率与本次偏导gt相乘得到w的变化大小
6.wt-5得到的值得到wt+1,完成参数更新

3. Momentum

解决的是下面三种情况:梯度为0,无法继续梯度下降,但是没到达最优解
在这里插入图片描述
在这里插入图片描述
迭代公式:
在这里插入图片描述
与前俩个不同的地方在于,前俩个是学习率随着迭代次数变化,Momentum是w的学习率不变,学习率乘以的偏导项不仅和当前偏导项有关,还和之前的偏导项有关,也就是类似于动量,当前的速度不仅和当前的所处的梯度有关,还和之前的速度有关,之前的速度又是和之前的梯度相关的。
步骤:
1.通过之前的速度vt和当前的梯度(加速度)计算出当前的vt+1
2.将学习率和当前的vt+1相乘得到w的改变量
3.wt-α.vt+1得到更新后的wt+1

4. Adam

在这里插入图片描述
将RMSProb和Momentum结合,既解决学习率问题,又解决梯度为零无法继续梯度下降,但是没到达最优解的问题。
步骤:
1.计算本次偏导项gt
2.计算改变后偏导项vt+1 = β1 .vt +(1-β1).gt
3.计算改变学习率的项σt+1 = β2.σt+(1-β2).gt^2
4.将2,3分别除以(1-β1),(1-β2)使得后面的项的系数为1,得到v-t+1和σ-t+1
5.跟新参数wt+1 = wt - α.v-t+1/√σ-t+1 +э(微小的偏置项)

2.过拟合解决

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值