Datawhale X 李宏毅苹果书 AI夏令营:TASK1

资料来源:Datawhale (linklearner.com) 

海塞矩阵与鞍点:在高维空间看到更多优化潜力

多数的时候,我们训练到一个梯度很小的地方,参数不再更新,往往只是遇到了鞍点。

二阶泰勒近似:

L(\theta+\Delta\theta)\approx L(\theta)+\Delta\theta^TL'(\theta)+\frac{1}{2}\Delta\theta^THesse\Delta\theta\\

导数为0(L'(\theta)=0):可能:是极小值点(海塞矩阵正定),极大值点(海塞矩阵负定),鞍点(海塞矩阵特征值有正有负:有些方向上升,有些方向下降)

问题:如何看待海塞矩阵半正定和半负定的情况?

三阶泰勒近似?

优化

epoch、batch、shuffle

批量梯度下降法(BGD):batch=N_full,计算量大,更新稳定,更准确

随即梯度下降法(SGD):batch=1,引入随机噪声,在非凸优化中更容易逃离局部最小值

并行计算导致计算时间与批量大小的关系非线性

小批量梯度下降

动量

自适应学习率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值