- 博客(1)
- 收藏
- 关注
原创 Datawhale X 李宏毅苹果书AI夏令营 深度学习进阶 笔记
在实际优化阶段,并不会每次计算全部数据的损失,而是分batch进行梯度下降。其中,batch size=1的时候叫做随机梯度下降。并行计算时大批量效率更高。需要引入一些随机性的时候可以减小batch size,引入一些噪声帮助训练。Motivation:在原本的梯度下降方向之外,引入上一次梯度下降的方向类似惯性。这样前一步影响够大的时候会越过鞍点。Motivation:梯度下降并为收敛到局部最优,但梯度已经为0,此时的情况就是。随机梯度下降时脱离鞍点的方法之一。
2024-08-27 21:36:47 312
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人