Adam优化器及其变种的原理

本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景。

1、SGD的原理

SGD(随机梯度下降法)是基于最速梯度下降法的原理,假设我们存在损失函数L(\theta ),其中\theta是要学习参数,定义如下的优化路径\theta^{k+1}=\theta^{k}+t^k\Delta(\theta^{k}),\ k=0,1,2,... ...,使得损失函数L(\theta )值最小。这是一个不断更新迭代参数\theta的过程,其中k表示其中某一更新步,t^k表示更新步长(即学习率),\Delta(\theta^{k})表示更新方向。

假设存在最优参数\theta^*,当前参数为最优参数附近的\theta^k,我们选择合适的参数更新步长,使得\theta^{k+1}=\theta^{k}+t^k\Delta(\theta^{k})逼迫最优参数。我们对目标损失函数L(\theta )进行泰勒展开:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值