优化函数框架

旺旺棒棒冰

于 2021-05-22 15:50:52 发布

阅读量115

点赞数 2

分类专栏：深度学习理论文章标签：优化函数梯度一阶动量二阶动量

原文链接：https://zhuanlan.zhihu.com/p/32230623

版权

深度学习理论专栏收录该内容

28 篇文章 1 订阅

订阅专栏

框架

该总结框架来自知乎文章：一个框架看懂优化算法之异同 SGD/AdaGrad/Adam

给定参数 $w$ ，损失函数 $f (w)$ , 学习率 $\alpha$ ，对于第 $t$ 个step：

计算目标函数关于当前参数的梯度： $g_{t}=\nabla f\left(w_{t}\right)$
根据历史梯度，计算一阶动量和二阶动量：
一阶动量： $m_{t}=\phi\left(g_{1}, g_{2}, \cdots, g_{t}\right)$
二阶动量： $V_{t}=\psi\left(g_{1}, g_{2}, \cdots, g_{t}\right)$
计算当前时刻的下降梯度： $\quad \eta_{t}=\alpha \cdot m_{t} / \sqrt{V_{t}}$
根据下降梯度更新参数： $w_{t+1}=w_{t}-\eta_{t}$

其中：

一阶动量：当前时刻梯度值的指数移动平均
$m_{t}=\phi\left(g_{1}, g_{2}, \cdots, g_{t}\right) =\beta m_{t-1}+(1-\beta) g_{t}$

二阶动量：之前所有时刻梯度值的平方和

$V_{t}=\psi\left(g_{1}, g_{2}, \cdots, g_{t}\right)=\sum_{i=1}^{t} g_{i}^{2}$

旺旺棒棒冰

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。