【05】深度学习——最优化与深度学习关系 | 损失函数、性质 | 梯度下降 | 随机、小批量梯度下降 | 动量法 | AdaGrad | RMSProp/AdaDelta |Adam | 学习率调节器

花落指尖❀

于 2024-09-12 10:41:09 发布

阅读量8

点赞数

分类专栏： # 深度学习文章标签：深度学习学习人工智能目标检测神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52162042/article/details/136385442

版权

深度学习专栏收录该内容

7 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

深度学习

1.最优化与深度学习
- 1.1二者密切联系
- 1.2主要差异
- 1.3训练误差和泛化误差
- 1.4经验风险
- 1.5优化中的挑战
2.损失函数
- 2.1损失函数的起源
- 2.2最大似然估计（MLE）
- - 2.2.1交叉熵损失概率分布解释
- 2.3最大化后验（MAP）
- 2.4贝叶斯估计（Bayesian Estimation）
3.损失函数的性质
- 3.1可微性和可导性
- 3.2凸性
- - 3.2.1如何判断函数凸性
  - 3.2.2凸约束和凸优化
- 3.3Jensen不等式
4.梯度下降
- 4.1如何逼近求解？
- 4.2搜索逼近策略
- 4.3梯度Gradient
- 4.4偏导数链式法则
- 4.5学习率
- 4.6总结
5.随机梯度下降法
- 5.1梯度下降法的问题
- 5.2基本思想
- 5.3优缺点
- 5.4动态学习率
6.小批量梯度下降法
- 6.1基本思想
- 6.2优缺点
- 6.3影响批量大小的因素
- 6.4不同梯度下降比较
7.动量法（Momentum）
- 7.1物理学中的动量
- 7.2深度学习中的动量
- 7.3基本思路
- 7.4优缺点
8.AdaGrad算法
- 8.1基本思想
- 8.2稀疏特征
- 8.3优缺点
- 8.4AdaGrad算法代码实现
- 8.5五种梯度下降算法时间发展图
9.RMSProp/AdaDelta算法
- 9.1RMSProp基本原理
- 9.2RMSProp优缺点
- 9.3AdaDelta基本原理
- 9.4AdaDelta优缺点
- 9.5总结
10.Adam算法
- 10.1Adam基本思想
- 10.2梯度下降法及其变体关系
- 10.3原理框架流程
- 10.4不同优化算法核心差异
- 10.5最佳选择策略讨论
- 10.6算法选择经验建议
11.梯度下降代码实现
- 11.1二维平面的梯度下降
- 11.2三维平面的梯度下降
- 11.3不同优化器效果对比
12.学习率调节器
- 12.1需要考虑的问题
- 12.2什么是学习率调节器
- 12.3常见学习率调节器
- 12.4学习率调节器代码实现

1.最优化与深度学习

1.1二者密切联系

最优化理论就是研究如何找到函数的最优解——其最大值和最小值的各种算法。
在深度学习中，研究特定的优化问题：寻找神经网络上的一组参数 $\theta$ ，能显著地降低损失函数

了解本专栏

超级会员免费看

花落指尖❀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

花落指尖❀ 您的认可是小浪宝宝最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。