Datawhale X 李宏毅苹果书 AI夏令营 Task-1

endact_00

已于 2024-08-24 17:06:03 修改

阅读量368

点赞数 4

文章标签：人工智能

于 2024-08-24 17:05:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/endact_00/article/details/141500265

版权

深度学习基础：局部极小值与鞍点

1. Local Minima vs Saddle Point

1). 相同点: 梯度(gradient)都为0; 都成为临界点(critical point);

2). 不同点:

极小值点周边的梯度都是增加的, 训练的时候出不来;
鞍点周边的梯度有可能变高,也有可能变低,只要找到变小的方向,就可以逃出鞍点,继续训练;

3). Q: 如果进入局部最小值点, 如何才能掏出困境并找到全局最小值?

2. How to indentifiy type of critical point?

1) Tayler Series Approximation

${\Theta}'$ is local Minima point which its gradient is 0,

$\Theta$ is a point around it.

$L\left ( {{\Theta }'} \right )$ is the LOSS function;

E.g.

算出 H 矩阵的负eigen value, 对应的eigen vector就是可以逃出鞍点的方向;

如果模型参数很多, 这个 H 非常复杂, 计算量很大, 所以这个方法并不经常使用;

3. Critical point and vector dimention

在高维场景下, 很难找到真正的极小值; #saddle point >> #local minima

深度学习基础：批量和动量

1. Batch v.s. Epoch

Batch: 更新一次参数所训练的数据量;

Epoch: 训练所有数据的一次操作, 可由许多 batch 组成; 当batch的数据量就是所有的数据时(Full batch), batch等于epoch;

由于 GPU 并行计算的帮助, batch size 大一点并不会明显增加 batch 的训练时间;

但是 batch size 太大会降低训练准确度: 如果每次训练都看全部数据,其实每次训练都是一样的, 训练中碰到stuck点,就卡住了; 如果更新是在各个不同的batch里面完成, 梯度方向有多样性, 可能会帮助克服一些stuck点;

结论:

2. Momentum 动量

1. 一般梯度下降( Vanilla 香草(一般普通的意思) Gradient Descent)

2. Gradient + Momentum

本质上新参数的方向及数值是之前所有的 gradient 来决定的;

E.g.

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。