深度学习笔记（十九）Mini-batch梯度下降法和指数加权平均

最新推荐文章于 2024-05-31 01:28:26 发布

Mr.zwX

最新推荐文章于 2024-05-31 01:28:26 发布

阅读量522

点赞数 1

分类专栏：【深度学习/神经网络】Deep Learning

本文链接：https://blog.csdn.net/qq_16763983/article/details/113190675

版权

【深度学习/神经网络】Deep Learning 专栏收录该内容

86 篇文章 47 订阅

订阅专栏

一、Mini-batch

如果训练集的样本数量非常大，比如有5000000个，把数据集划分为每1000个一组，那么就有5000组。用 $x^{\{t\}}$ 表示第t组，例如：
$x^{\{1\}}=[x^{(1)},x^{(2)},...,x^{(1000)}]$

在这里插入图片描述

二、理解Mini-batch梯度下降法

Batch梯度下降和Mini-batch梯度下降法cost函数对比
在这里插入图片描述
Mini-batch size的选取

size=m， $x^{\{1\}},y^{\{1\}})=(X,Y)$ ，梯度下降过程如蓝色所示，耗时太长
size=1， $x^{\{t\}},y^{\{t\}})=(x^{(1)},y^{(1)})$ ，梯度下降过程如紫色所示，失去向量化的优势
size between 1 and m，具有更高的效率，既可以向量化处理，也可以不等待全过程结束就进一步处理，如绿色所示

在这里插入图片描述

如果样本数量小，直接使用Batch梯度下降法，小样本通常指小于2000个样本
样本大用Mini-batch梯度下降，通常size选取64，128，256，512
设置Mini-batch时要符合你电脑的CPU和GPU，不然算法结果会惨不忍睹

三、指数加权平均

要计算下图中的局部平均值/移动平均值
在这里插入图片描述
$v_0=0$

$v_1=0.9v_0+0.1\theta_1$

$v_2=0.9v_1+0.1\theta_2$

$v_t=0.9v_{t-1}+0.1\theta_t$

计算上式后可以得到温度的指数加权平均值
在这里插入图片描述
$v_t=\beta v_{t-1}+(1-\beta)\theta_t$

$v_t\approx avg(\frac{1}{1-\beta}days_{temperature})$

$\beta=0.9\to 10$ 天的平均温度（红）
$\beta=0.98\to$ 50天的平均温度（绿）
在这里插入图片描述
当 $\beta$ 增大时，给当日的权重变少，所以指数加权平均值适应更慢，表现出一定程度的延迟。
进一步研究， $\beta=0.5\to 2$ 天的平均温度，由于仅仅平均了2天的值，图像得到更多噪声，异常值也更多，但它更快适应了温度变化。

四、理解指数加权平均

将 $v_{100}$ 展开得到
在这里插入图片描述
$(1-\varepsilon)^{1/\varepsilon}=\frac{1}{e}$
$0.9^{10}=\frac{1}e$
$0.98^{50}=\frac{1}e$
$v_t$ 平均的是 $\frac{1}{1-\beta}$ 天的值

指数加权平均的实现
在这里插入图片描述

v = 0
Repeat {
	Get next x
	v = bv + (1-b)x
}

五、指数加权平均的偏差修正

不用 $v_t$ 表示，而是用 $\frac{v_t}{1-\beta^t}$
在这里插入图片描述
红线是 $\beta=0.9$ 时对应的图像，紫线是 $\beta=0.98$ 对应的图像，绿线是在 $\beta=0.98$ 情况下用 $\frac{v_t}{1-\beta^t}$ 替换 $v_t$ 所对应的图像，可以看到前期的拟合更合理，后期t增大，分母趋近于1，绿线和紫线几乎重合。
如上就是指数加权平均的偏差修正方法。