weixin_40251049-CSDN博客

原创 Datawhale X 李宏毅苹果书AI夏令营深度学习进阶笔记

在实际优化阶段，并不会每次计算全部数据的损失，而是分batch进行梯度下降。其中，batch size=1的时候叫做随机梯度下降。并行计算时大批量效率更高。需要引入一些随机性的时候可以减小batch size，引入一些噪声帮助训练。Motivation：在原本的梯度下降方向之外，引入上一次梯度下降的方向类似惯性。这样前一步影响够大的时候会越过鞍点。Motivation：梯度下降并为收敛到局部最优，但梯度已经为0，此时的情况就是。随机梯度下降时脱离鞍点的方法之一。

2024-08-27 21:36:47 312

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Datawhale X 李宏毅苹果书AI夏令营 深度学习进阶 笔记

空空如也

空空如也

原创 Datawhale X 李宏毅苹果书AI夏令营深度学习进阶笔记