Deep Leaning 学习笔记之改善神经网络的超参数（2.1）—— 优化算法速度（小批量、动量、均方根、adam优化算法）

最新推荐文章于 2022-10-07 19:04:54 发布

Aperact

最新推荐文章于 2022-10-07 19:04:54 发布

阅读量538

点赞数

分类专栏： DeepLearning

本文链接：https://blog.csdn.net/m0_37108127/article/details/97891326

版权

1.小批量梯度下降mini-batch

小批量梯度下降，顾名思义，指的是：
假如有一个训练集，大小为1,000,000，每次运行梯度下降，都需要整体遍历一遍数据集之后才能够运行一步。
小批量梯度下降，则将这一百万个样本，分成多份，每1000个样本（可以是其他数字）成为一个小批量。每次运行一个小批量样本时，梯度更新一次。那么，遍历整体一百万个样本时，梯度会更新1000次，即走1000步。
小批量维度：
$X^{t}∈(X_n,1000)$
$Y^t ∈ (1,1000)$

一般来说，当样本数量 $\leq$ 2000时，直接采用梯度下降算法
当样本数量$＞$2000时，采取小批量梯度下降
每一组的样本数可以分为： $64, 128, 256, 512$ 等等，都是以2的幂次方为准
所有的X{t} Y{t}都是要放在CPU/GPU中的，这和你的配置，以及一个训练样本的大小都有关系，但是如果你使用的mini-batch超过了 CPU/GPU 内存的容量，不管你怎么做你都会发现，结果会突然变得很糟。

和梯度下降类似，只不过梯度下降的X变成了X{t}。
repeat （for i = 1 to $m/m_t$ ）：
前向传播 $\to$ 计算Z,A值 $\to$ 反向传播 $\to$ 计算梯度 $\to$ 更新梯度。

以温度为例。
公式： $V_t=βV_{t-1} + (1-β)θ_t$
$\approx 1 / (1 - β) 天的平均气温$

代码比较高效，只用一个初始化值和一行代码即可给出平均值（其他算法给的平均值更准确，但是没有这个高效）。
$V_θ = 0$
repeat：
$V_θ := βV + (1-β)θ_t$
在这里插入图片描述

即用 $\frac{V_t}{(1-β^t)}$

关注