《动手学深度学习》优化算法学习&习题

最新推荐文章于 2024-11-11 15:17:57 发布

银晗

最新推荐文章于 2024-11-11 15:17:57 发布

阅读量220

点赞数

文章标签：深度学习算法学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/randyhan/article/details/132140283

版权

优化算法

梯度下降类

小批量随机梯度下降，通过平均梯度来减小方差

动量法

基础

泄露平均法：用来取代梯度的计算
在这里插入图片描述

$\beta$ 这个参数控制了取多久时间的平均值

在这里插入图片描述
上述推理构成了”加速”梯度方法的基础，例如具有动量的梯度。

在优化问题条件不佳的情况下（例如，有些方向的进展比其他方向慢得多，类似狭窄的峡谷）”加速”梯度还额外享受更有效的好处。
此外，它们允许我们对随后的梯度计算平均值，以获得更稳定的下降方向。诚然，即使是对于无噪声凸问题，加速度这方面也是动量如此起效的关键原因之一。

动量法原理

在这里插入图片描述

动量法用过去梯度的平均值来替换梯度，这大大加快了收敛速度。
对于无噪声梯度下降和嘈杂随机梯度下降，动量法都是可取的。
动量法可以防止在随机梯度下降的优化过程停滞的问题。
由于对过去的数据进行了指数降权，有效梯度数为 $\frac{1}{1-\beta}$
在凸二次问题中，可以对动量法进行明确而详细的分析。
动量法的实现非常简单，但它需要我们存储额外的状态向量（动量）。

AdaGrad

稀疏特征与学习率

假设我们正在训练一个语言模型。为了获得良好的准确性，我们大多希望在训练的过程中降低学习率
只有在这些不常见的特征出现时，与其相关的参数才会得到有意义的更新。

问题所在：

鉴于学习率下降，我们可能最终会面临这样的情况：常见特征的参数相当迅速地收敛到最佳值，而对于不常见的特征，我们仍缺乏足够的观测以确定其最佳值。换句话说，学习率要么对于常见特征而言降低太慢，要么对于不常见特征而言降低太快。

在这里插入图片描述

一般而言，计算特征值和特征向量要比解决实际问题“贵”得多。
然准确计算特征值可能会很昂贵，但即便只是大致猜测并计算它们，也可能已经比不做任何事情好得多。特别是，我们可以使用的对角线条目并相应地重新缩放它。这比计算特征值开销小的多。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

RMSProp

在这里插入图片描述

在优化算法中，泄露平均值是指在每次迭代中，算法泄露的信息的平均值(这里泄露的是上一次梯度二次矩)。

Adam

核心点：使用指数加权移动平均值来估算梯度的动量和二次矩
注意初始化，v，s均等于0会有一个很大的初始偏差,故采用指数初始化

缩放梯度：

在这里插入图片描述

Adam算法也存在一些问题：即使在凸环境下，当 $s_t$ 的二次矩估计值爆炸时，它可能无法收敛
Adam算法将许多优化算法的功能结合到了相当强大的更新规则中。
Adam算法在RMSProp算法基础上创建的，还在小批量的随机梯度上使用EWMA。
在估计动量和二次矩时，Adam算法使用偏差校正来调整缓慢的启动速度

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

银晗 CSDN认证博客专家 CSDN认证企业博客

码龄4年

127: 原创

5909: 周排名

8万+: 总排名

20万+: 访问

: 等级

2241: 积分

1万+: 粉丝

762: 获赞

80: 评论

1659: 收藏

私信

关注

热门文章

分类专栏

教程操作 5篇
大数据 16篇
深度学习基础 11篇
算法 7篇
机器学习 6篇
GNN 1篇
医疗图像 18篇
Python 8篇
计算机基础 4篇
英语 1篇
Go 2篇
数据结构 2篇

最新评论

雅思资料汇总
大大聂: 非常全面的总结！
LightGBM
gfjy10: 您好，咨询个问题，看一些关于这个lgb算法的介绍，有个最基本的问题，一直没找到答案：lgb的一个优秀特点是：不用把特征列转换成one-hot编码，问题是，如果特征是中文文本，是否需要把中文转换成数值，因为如果不转换成数值，这步model = lgb.train(params, lgb_train, num_boost_round=100, valid_sets=[lgb_eval])，会提示错误：alueError: pandas dtypes must be int, float or bool.Fields with bad pandas dtypes: state: object.如果必须把文本特征转换成数值，应该用什么方法呢
数据并行 - DP/DDP/ZeRO
m0_71534750: 看了几个，你是写的最清楚的
FP tree算法详解附代码及挖掘案例
2401_85283291: 大彻大悟
InterLM代码解析
shixf626: github上没有找到源码工程哇

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。