李宏毅-2021春-机器学习/深度学习学习笔记-Deep Learning【2】

最新推荐文章于 2022-06-27 15:48:14 发布

海底捞在逃肥牛丶

最新推荐文章于 2022-06-27 15:48:14 发布

阅读量200

点赞数

分类专栏：李宏毅深度学习机器学习笔记文章标签：机器学习深度学习 optimization

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41559638/article/details/117808883

版权

李宏毅深度学习机器学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

二、Tips for Training: Batch and Momentum

1、Batch

（1）目标任务： $\theta^*=arg\min \limits_\theta L$ ；

（2）操作：每次在所有的训练集中选取一个Batch然后进行梯度下降后更新参数，Epoch尾进行一次Shuffle：
${\color{green}g^i}=\nabla L^i(\theta^j) \qquad update \quad \theta^j-{\color{red}\eta \color{green}g^i}\to \theta^{j+1}$
（3）为什么要使用Batch？

大的Batch训练梯度下降比较直接，小的则会比较Noisy，但是因为其训练的时候针对每个小Batch就会从每个局部最优跳来跳去，可以不会陷入局部最优，另外，小的Batch也对Testing的时候比较好；

我们认为局部最优解如果该点曲率比较小（平原上），则其是一个比较好的局部最优解；

所以，Batch Size是一个我们需要去调的超参数；

2、Momentum

（1）理解：一般的梯度下降中，我们只是向着梯度方向的反方向移动参数，但是添加了Momentum的时候，就变成了如下形式：
${\color{green}g^i}=\nabla L^i(\theta^j) \qquad update \quad \theta^i+\lambda m^i-{\color{red}\eta \color{green}g^i}\to \theta^{i+1},$
其中， $m^i$ 为前一步移动的步长： $\lambda m^{i-1}-\eta g^{i-1}$ ；

（2）优势：添加了Momentum会考虑前面计算到的所有梯度，而不是只有上一次的梯度；

海底捞在逃肥牛丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。