李宏毅 - 神经网络训练不起来怎么办(二)

Batch and Momentum:

Batch:使用训练集中一小部分样本对模型权重进行一次反向传播对的参数更新,这一小部分样本被称为“一批数据”。
Epoch:使用训练的全部数据对模型进行一次完整训练,被称为“一代训练”。
Iteration:使用一个Batch数据为模型进程一次参数更新的过程,被称为“一次训练”。
我们每次计算的梯度和损失都是计算一个Batch中的梯度和损失。
在这里插入图片描述
batch设置的大小对模型训练有很大影响,根据需要选择自己的Batch。

Momentum梯度下降:首先在物理的世界里面,假设Error Surface是斜坡曲线,参数就是这个球,把球从高处放下,当球滚到local minima 或者 saddle point 时不一定会被卡住,可能由于惯性继续往前走。
在这里插入图片描述
**Gradient + momentum:**每次在移动参数时,不是只往Gradient的反方向来移动(一般的gradient descent移动方向是gradient的反方向),而是依靠 1. gradient的反方向 2. 前一步移动的方向。两者加起来的结果去调整我们的参数。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值