《深度学习详解》第三章深度学习基础

Farah_Y

于 2024-08-27 23:36:35 发布

阅读量271

点赞数 4

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Farah_Y/article/details/141614849

版权

1. 局部最小点和鞍点

做优化的时候经常会发现，随着参数不断更新，训练的损失不会再下降, 但是我们对这个损失仍然不满意。把深层网络（deep network）、线性模型和浅层网络（shallow network）做比较，可以发现深层网络没有做得更好——深层网络没有发挥出它完整的力量，所以优化是有问题的。但有时候，模型一开始就训练不起来，不管我们怎么更新参数，损失都降不下去。

1.1 临界点及其种类

一个猜想是我们优化到某个地方，这个地方的参数对损失的微分为0.因此梯度下降就不能再更新参数了，训练就停下来了，损失就不再下降了。梯度为0的点统称为临界点，包括：

局部最小/大：
鞍点：梯度为0但不为局部最小

对于鞍点，旁边还是有路可以让损失降低的，因此需要识别鞍点，逃离鞍点。

1.2 逃离鞍点的方法

判断一个临界点是局部最小还是鞍点需要知道损失函数的形状。

对于复杂网络，其损失函数也很复杂。对于给定点附近的损失函数，可以用泰勒级数近似。

其中，第三项式可以用来判断点附近的误差表面。其中的H，是海森矩阵，里面放的是L的二次微分。

该式在任何点都大于0时，说明当前是最小点，则为局部极小值。
该式在任何点都小于0时，说明当前是最大点，则为局部极大值。
若有时大于0，有时小于0，则既不是极大值也不是极小值，为鞍点。

为了简化计算，只计算海森矩阵H即可。若H的特征值为正，则H为正定矩阵，则为局部极小值。若H的特征值都为负，则H为负定矩阵，则为局部极大值。若有正有负，则为鞍点。

总结：使用海森矩阵，但需要计算二次微分，运算量大，一般不用。

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Farah_Y CSDN认证博客专家 CSDN认证企业博客

码龄5年

19: 原创

112万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

250: 积分

65: 粉丝

58: 获赞

6: 评论

97: 收藏

私信

关注

热门文章

分类专栏

最新评论

《深度学习详解》第三章深度学习基础
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【动手学大模型】第四章数据库搭建
佳灏: Traceback (most recent call last): File "D:\pythonProject2\xianglianghua.py", line 5, in <module> from zhipuai_embedding import ZhipuAIEmbeddings ModuleNotFoundError: No module named 'zhipuai_embedding' 博主这个问题怎么解决
【动手学大模型】第六章验证迭代
CSDN-Ada助手: 恭喜您写完了第11篇博客，标题为“【动手学大模型】第六章验证迭代”。看到您持续不断地创作，我真的非常钦佩！这篇博客标题十分引人入胜，让人充满了期待。不过，如果可以的话，我希望在下一篇博客中能够看到更多关于实际应用方面的内容，因为我相信您对此一定有很多独到的见解。谢谢您的辛勤付出，期待您的下一篇精彩之作！
【动手学大模型】第三章大模型开发流程及架构
CSDN-Ada助手: 恭喜作者第三章的发布！看到你对大模型开发流程及架构的深入探讨，真是让人钦佩。接下来，希望能看到更多关于实际案例的分享，或者是对于具体技术细节的剖析，这样可以更好地帮助读者理解和应用。期待你的下一篇作品！
【动手学大模型】第五章 prompt设计
CSDN-Ada助手: 恭喜作者在“【动手学大模型】第五章 prompt设计”这篇博客中分享了宝贵的学习经验！持续不断地分享自己的学习心得对读者来说是非常有帮助的。接下来，或许可以考虑分享一些实际案例或者应用场景，让读者更好地理解 prompt 设计在实际中的应用。谢谢作者的分享，期待更多精彩的内容！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。