【AI之路】优化算法浅记

CodeSlogan

已于 2022-09-03 18:37:45 修改

阅读量832

点赞数

分类专栏： AI 文章标签：深度学习人工智能优化算法 Adam SGD

于 2022-08-18 21:44:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/comscience/article/details/126413652

版权

AI 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

文章目录

前言
BGD
SGD
MBGD
Momentum
RMSprop
Adagrad
Adam
参考资料

前言

几次面试下来，优化算法被问到的频率非常的高，所以在这里简单记录一个常见优化算法的特点。因自己对AI领域的了解还不是很深，只能浅浅地记录一下

BGD

批量梯度下降，Batch gradient descent

训练集较小（ $\leq 2000$ ），直接使用批量梯度下降

SGD

随机梯度下降，Stochastic gradient descent

这里的“随机”指的是对样本进行随机采样

SGD由于每次只选取了一个样本，失去了用动量进行加速的机会

MBGD

小批量梯度下降，mini-batch gradient descent

综合了批量梯度下降和随机梯度下降的优点，适合处理大型数据集

mini-batch size = m时，为批量梯度下降
mini-batch size = 1时，为随机梯度下降

该算法每次只处理一个小批量样例，而不是处理一个完整的训练集。比如现在有500万条数据，就可以将它划分成5000个批次，每个批次有1000个样例

mini-batch size通常设置为2的幂数

好处：

向量处理。如每个批次有1000个样例，可以用一个向量同时处理这1000个样本
不用等待整个数据集都训练完后，才运行梯度下降。如上述例子，每遍历完一次训练集，可以执行5000次梯度下降算法
相比SGD，更一致地朝着最小值的方向前进，不会总在最小值附近摆动

Momentum

动量梯度下降

计算梯度的指数加权平均，然后利用梯度来更新权重

$v_{dW}=\beta v_{dW}+(1-\beta)dW$

$v_{db}=\beta v_{db}+(1-\beta)db$

$W=W-\alpha v_{dW},b=b-\alpha v_{db}$

RMSprop

均方根传播，Root Mean Square prop

基于权重梯度最近量级的均值为每一个参数适应性地保留学习率。这意味着算法在非稳态和在线问题上有很有优秀的性能

Adagrad

适应性梯度算法（AdaGrad）为每一个参数保留一个学习率以提升在稀疏梯度（即自然语言和计算机视觉问题）上的性能

Adam

适应性矩估计

是动量和RMSProp的结合

$\alpha$ ：学习率
$\beta_1$ ：0.9， $d W$ 代表这个导数的平均值（第一阶矩）
$\beta_2$ ：0.999， $dW^2$ 用于计算平均数的指数加权平均（第二阶矩）
$\epsilon$ ： $10^{-8}$

优势：

实现简单，计算高效，所需内存小
梯度对角缩放的不变性
超参数可以直观解释，仅需要极少量的调参

与传统SGD的区别：

SGD保持单一的学习率更新所有的权重，学习率在训练过程中不会发生改变
Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应学习率

参考资料

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【AI之路】优化算法浅记

几次面试下来，优化算法被问到的频率非常的高，所以在这里简单记录一个常见优化算法的特点。因自己对AI领域的了解还不是很深，只能浅浅地记录一下。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CodeSlogan 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。