深度学习总结二:优化器

深度学习总结二:优化器


对应代码

梯度下降

逻辑回归代码
附梯度下降w变化曲线用于对比
在这里插入图片描述

momentum

动量法,原理在于一个方向的速度可以积累,而且越积累越大;通过不同训练样本求得梯度时,在最优的方向的梯度,始终都会增大最优方向上的速度。因此,可以减少许多震荡。
对用代码:

self.w_update = self.gamma * self.w_update + (1 - self.gamma) * w_grad

在这里插入图片描述
对比梯度下降,在20处就已经处于稳定。

Ada

假设存在w1和w2,且两者更新速度不一致。如下图:
在这里插入图片描述
这样Ada就出现了。
它的原理:使得每一个参数更新都会有自己与众不同的学习率。
对应代码:

self.s += np.power(w_grad, 2)
w = w - self.learning_rate * (w_grad / np.sqrt(self.s))

在这里插入图片描述
Ada解决出现的拟合速度不一致问题。缺点:因为梯度要除以距离,长时间优化时距离越大,梯度就越来越小,效率低迷。

RMSProp

RMSProp原理:测试初期因为加了s_correct所以拟合速度会加快,用动量的流平均思想,到了一定时间,总的里程开始不变,解决Ada后期效率低迷问题。
对应代码:

self.s = self.beta * self.s + (1 - self.beta) * (w_grad**2)
s_correct = self.s/(1 - self.beta ** (i+1))
w = w - self.learning_rate * w_grad / np.sqrt(s_correct)

在这里插入图片描述

Adam

集合前面几个算法的优点
对应代码:

self.v = self.gamma * self.v + (1 - self.gamma) * w_grad
v_correct = self.v / (1 - self.gamma ** (i+1))
self.s = self.beta * self.s + (1 - self.beta) * (w_grad**2)
s_correct = self.s/(1 - self.beta ** (i+1))
w = w - self.learning_rate * (v_correct/np.sqrt(self.s))

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值