HBU_神经网络与深度学习作业12 网络优化与正则化

最新推荐文章于 2022-12-13 17:21:48 发布

ZodiAc7

最新推荐文章于 2022-12-13 17:21:48 发布

阅读量327

点赞数 1

文章标签：深度学习神经网络

原文链接：https://blog.csdn.net/qq_38975453/article/details/128139667

版权

写在前面的一些内容

本次习题来源于神经网络与深度学习 pdf电子书的第204页（对应纸质版第189页）的习题7-1、7-2和7-9，具体内容详见 NNDL 作业12 。
水平有限，难免有误，如有错漏之处敬请指正。

习题7-1

在小批量梯度下降中，试分析为什么学习率要和批量大小成正比。

在小批量梯度下降中，有
$g_t(\theta)=\frac{1}{K}\sum_{(x,y)\in S_t}\frac{\partial L(y,f(x;\theta))}{\partial\theta}$ 而
$\theta=\theta_{t-1}-\alpha g_t$ 令 $g_t=\frac{1}{K}\delta$ ，则
$\theta=\theta_{t-1}-\frac{\alpha}{K}\delta$ 而我们需要得到参数最优，就需要 $\frac{\alpha}{K}$ 最优，

因此，学习率要和批量大小成正比。

习题7-2

在Adam算法中，说明指数加权平均的偏差修正的合理性。
即公式
$\hat{M}_t=\frac{M_t}{1-\beta^t_1}$ 和公式 $\hat{G}_t=\frac{G_t}{1-\beta^t_2}$

在Adam算法中，有：
$M_t=\beta_1M_{t-1}+(1-\beta_1)g_t \\ G_t=\beta_2G_{t-1}+(1-\beta_2)g_t\odot g_t$ 因此，当 $\beta_1\rightarrow1,\beta_2\rightarrow1$ 时，存在
$\lim_{\beta_1\rightarrow1}M_t=M_{t-1} \\ \lim_{\beta_2\rightarrow1}G_t=G_{t-1}$ 可以发现，前后两轮的值趋近于相等，这会导致梯度消失，后续梯度不再下降，

因此，我们需要对指数加权平均进行偏差修正操作。

习题7-9

证明在标准的随机梯度下降中，权重衰减正则化和 $ℓ_2$ 正则化的效果相同，并分析这一结论在动量法和Adam算法中是否依然成立。

①
设 $L_t$ 为第 $t$ 步的损失函数，则有
$L_t=L_0+\frac{\lambda}{2}||w||^2$ (即 $l_2$ 正则化)。

对 $L_t$ 求关于 $w$ 和 $b$ 的偏导：
$\frac{\partial L_t}{\partial w}=\frac{\partial L_0}{\partial w}+\lambda w \\ \frac{\partial L_t}{\partial b}=\frac{\partial L_0}{\partial b}$ 标准的随机梯度下降中，有：
$w\leftarrow w-\eta(\frac{\partial L_0}{\partial w}+\lambda w)=(1-\eta\lambda)w-\eta\frac{\partial L_0}{\partial w}$ 同理，有：
$b\leftarrow b - \eta\frac{\partial L_0}{\partial b}$ 令 $\eta\lambda=\beta$ ，可以得到
$\theta_t \leftarrow(1-\beta)\theta_{t-1}-\alpha g_t$ ②
L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。
当与自适应梯度相结合时（即动量法和Adam算法），L2正则化会导致导致具有较大历史参数（和/或）梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。