Datawhale X 李宏毅苹果书 AI夏令营 Task-1

深度学习基础:局部极小值与鞍点

1. Local Minima vs Saddle Point

1). 相同点: 梯度(gradient)都为0; 都成为临界点(critical point);

2). 不同点:

  • 极小值点周边的梯度都是增加的, 训练的时候出不来;
  • 鞍点周边的梯度有可能变高,也有可能变低,只要找到变小的方向,就可以逃出鞍点,继续训练;

3). Q: 如果进入局部最小值点, 如何才能掏出困境并找到全局最小值?

2. How to indentifiy type of critical point? 

1) Tayler Series Approximation

 {\Theta}' is local Minima point which its gradient is 0,

\Theta is a point around it. 

L\left ( {​{\Theta }'} \right ) is the LOSS function;

E.g.

算出 H 矩阵的 负eigen value, 对应的eigen vector就是可以逃出鞍点的方向;

如果模型参数很多, 这个 H 非常复杂, 计算量很大, 所以这个方法并不经常使用;

3. Critical point and vector dimention

在高维场景下, 很难找到真正的极小值;  #saddle point >> #local minima 

深度学习基础:批量和动量

1. Batch v.s. Epoch

Batch: 更新一次参数所训练的数据量;

Epoch: 训练所有数据的一次操作, 可由许多 batch 组成; 当batch的数据量就是所有的数据时(Full batch), batch等于epoch;

由于 GPU 并行计算的帮助, batch size 大一点 并不会明显 增加 batch 的训练时间;

但是 batch size 太大会降低训练准确度: 如果每次训练都看全部数据,其实每次训练都是一样的, 训练中碰到stuck点,就卡住了; 如果更新是在各个不同的batch里面完成, 梯度方向有多样性, 可能会帮助克服一些stuck点;

结论:

2. Momentum 动量

1. 一般梯度下降( Vanilla 香草(一般普通的意思) Gradient Descent)

2. Gradient + Momentum

本质上新参数的方向及数值是 之前所有的 gradient 来决定的; 

E.g.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值