Datawhale X 李宏毅苹果书 AI夏令营第五期LeeDL task1

最新推荐文章于 2024-08-29 12:09:23 发布

qq_57067122

最新推荐文章于 2024-08-29 12:09:23 发布

阅读量202

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_57067122/article/details/141614814

版权

# 3.1 局部极小值与鞍点

临界点（critical point）：局部极小值（local minimum）或鞍点（saddle point）

通过损失函数形状->泰勒级数近似（Tayler series appoximation）->梯度和海森矩阵（Hessian matrix）H来判断是哪种情况。

在临界点的附近，损失函数可被近似为

从而判断临界点附近形状。

更简单的说，根据海森矩阵（Hessian matrix）H的特征值来判断，H是正定矩阵，则是局部极小值，H是负定矩阵，则是局部最大值，H特征值有正有负，则是鞍点。负的特征值对应的特征向量，就是继续优化的方向。

在参数维度高的情况下，训练更容易遇到鞍点而不是局部极小值点。

# 3.2 批量和动量

批量梯度下降法（Batch Gradient Descent，BGD）：每次迭代的计算量大。但相比随机梯度下降，每次更新更稳定、更准确。

随机梯度下降法（Stochastic Gradient Descent，SGD）（增量梯度下降法）：下降的梯度上引入了随机噪声，因此在非凸优化问题中，其相比批量梯度下降更容易逃离局部最小值。

在有考虑并行计算的时候，大的批量大小反而是较有效率的，一个回合大的批量花的时间反而是比较少的。

虽然批量大小越大，验证集准确率越差，但这不是过拟合，也不是模型偏见的问题。大的批量大小优化可能会有问题，小的批量大小优化的结果反而是比较好的。因为小批量梯度下降法（mini-batch gradient descent）每次是挑一个批量计算损失，所以每一次更新参数的时候所使用的损失函数是有差异的。

小批量的测试效果也更好，大的批量大小会让我们倾向于走到狭窄的最小值“峡谷”里面，而小的批量有很多的损失函数，更新方向比较随机，倾向于走到范围比较宽的最小值“盆地”里面。

动量法（momentum method）：每次在移动参数的时候，不是只往梯度的反方向来移动参数，而是根据梯度的反方向加上前一步移动的方向决定移动方向。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营第五期LeeDL task1

小批量的测试效果也更好，大的批量大小会让我们倾向于走到狭窄的最小值“峡谷”里面，而小的批量有很多的损失函数，更新方向比较随机，倾向于走到范围比较宽的最小值“盆地”里面。来判断，H是正定矩阵，则是局部极小值，H是负定矩阵，则是局部最大值，H特征值有正有负，则是鞍点。：每次在移动参数的时候，不是只往梯度的反方向来移动参数，而是根据梯度的反方向加上前一步移动的方向决定移动方向。在有考虑并行计算的时候，大的批量大小反而是较有效率的，一个回合大的批量花的时间反而是比较少的。在临界点的附近，损失函数可被近似为。
复制链接

扫一扫

qq_57067122 CSDN认证博客专家 CSDN认证企业博客

码龄3年

12: 原创

150万+: 周排名

26万+: 总排名

4880: 访问

: 等级

235: 积分

71: 粉丝

115: 获赞

3: 评论

120: 收藏

私信

关注

热门文章

最新评论

大模型理论基础打卡Task03
CSDN-Ada助手: 恭喜您在大模型理论基础打卡Task03上取得了进展，持续不断地分享知识真是令人钦佩！希望您可以在下一篇博客中深入探讨一些实际案例或者个人见解，这样可以更生动地展示您对该主题的理解和应用。期待您的下一篇作品！
大模型理论基础Task01-补充
CSDN-Ada助手: 恭喜你写完了第三篇博客！看到你对大模型理论基础的深入探讨，我真的很开心。你的文章内容丰富，逻辑清晰，让我受益匪浅。接下来，如果可能的话，我希望你能够进一步扩展你的话题，例如探讨一些实际应用中的挑战或者讨论大模型理论与其他相关领域的交叉点。我相信，通过你对这个主题的不断探索，我们读者将会受益更多。期待你的下一篇文章，加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
大模型理论基础Task02-补充
CSDN-Ada助手: 恭喜你写了第四篇博客，标题为“大模型理论基础Task02-补充”！看来你对这个主题有着很深的理解和研究。接下来，我建议你可以尝试结合实际案例或者应用场景，来分析和探讨大模型理论基础的实际运用，这样可以让读者更加直观地理解和学习。希望你可以继续坚持创作，期待你更多精彩的文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
大模型理论基础Task02-打卡
CSDN-Ada助手: 恭喜您写了第5篇博客！标题“大模型理论基础Task02-打卡”引人入胜。您对大模型理论的讲解很深入，让我对这个话题有了更清晰的理解。希望您能继续坚持创作，分享更多有价值的知识。下一步，我建议您可以探讨一下大模型理论在实际应用中的挑战和解决方案，这将为读者提供更具实践性的参考。谢谢您的分享，期待您的下一篇博客！
大模型理论基础打卡Task01
CSDN-Ada助手: 恭喜您写完了第6篇博客！标题中的“大模型理论基础打卡Task01”听起来很有深度和挑战性。很高兴看到您对这个主题有着浓厚的兴趣，并且持续写作下去。在下一步的创作中，或许可以尝试分享一些具体的实践案例或应用，将理论与实际相结合，这样读者能够更好地理解和应用这些理论基础。再次恭喜您，并期待您的下一篇博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。