Datawhale X 李宏毅苹果书 AI夏令营 TASK 1

最新推荐文章于 2024-09-30 13:49:56 发布

clearlove349

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量178

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/clearlove349/article/details/141487424

版权

第三章深度学习基础

学习目标：

1.理解为什么优化会失败

2.学会对学习率进行调整

3.学习通过批量归一化改变误差表面

3.1 局部最小值与鞍点

3.1.1 临界点及其种类

我们一般将梯度为0的点统称为临界点，而临界点又可以分为局部最小值，局部最大值,和鞍点，

我们在深度学习的过程中有可能发现参数对损失函数微分为0的时候，梯度下降就不能更新参数了，训练就停下来了，损失也不再下降了。

由于我们没有一种方法来区别鞍点和局部最小值，鞍点周围是还有其他的点可以使损失降低。只要逃离鞍点，就有可能让损失更低。

3.1.2 判断临界值种类的方法

首先用泰勒级数近似来表示在目标点周围的损失函数

其中H为海森矩阵

3.2 批量和动量

将数据分为批量的时候的随机打乱有很多中不同的做法，一个常见的做法是在每一个回合开始之前重新划分批量，也就是说，每个回合的批量的数据都不一样。

3.2.1 批量大小对梯度下降法的影响

假设现在又20笔训练数据，以下是两个极端的情况

批量梯度下降法:批量的大小即为训练数据的大小，在模型看完20笔数据之后，才能计算损失和梯度，参数才能更新一次。

随机梯度下降法:批量大小等于1，每一个回合中，参数都要更新20次。这也意味着，每一笔数据算出来的损失相对带有更多的噪声。

相比随机梯度下降，批量梯度下降每次更新更稳定，更准确。

大的批量和小的批量各有优缺点。

3.2.2 动量法

动量法是另外一个可以对抗鞍点或局部最小值的方法。

关注

5
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。