神经网络和深度学习课堂笔记（一）

最新推荐文章于 2024-09-10 19:20:56 发布

hit_Simon_auto

最新推荐文章于 2024-09-10 19:20:56 发布

阅读量142

点赞数 1

分类专栏：深度学习 homework trash 文章标签：深度学习神经网络机器学习

原文链接：https://zh.d2l.ai/chapter_optimization/adam.html

版权

深度学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

homework trash

4 篇文章 0 订阅

订阅专栏

（此为课程作业，参考价值不大，有需要可以通过链接直接阅读原文《动手学深度学习》）

多层感知机

在这里插入图片描述
通过在网络中加入一个或多个隐藏层来克服线性模型的限制，使其能处理更普遍的函数关系类型。要做到这一点，最简单的方法是将许多全连接层堆叠在一起。每一层都输出到上面的层，直到生成最后的输出。我们可以把前层看作表示，把最后一层看作线性预测器。这种架构通常称为多层感知机（multilayer perceptron），通常缩写为MLP。
感知机两层神经元之间需要在仿射变换之后对每个隐藏单元应用非线性的激活函数（activation function）。激活函数的输出被称为活性值（activations）。一般来说，有了激活函数，就不可能再将我们的多层感知机退化成线性模型。
常用函数有tanh函数，sigmoid函数，ReLU函数。

BP神经网络

请添加图片描述

算法拓展

通过正则化防止过拟合。在训练参数化机器学习模型时，权重衰减（weight decay）是最广泛使用的正则化的技术之一，它通常也被称为L2正则化。
一般的损失函数由下式给出：
$L(\mathbf{w}, b) = \frac{1}{n}\sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.$
为了惩罚权重向量的大小，
我们必须以某种方式在损失函数中添加 $\| \mathbf{w} \|^2$ ，通过正则化常数 $\lambda$ 来平衡这个新的额外惩罚的损失
这是一个这是一个非负超参数，则新的损失函数可写为：
$L(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2,$
$L_2$ 正则化线性模型构成经典的岭回归（ridge regression）算法， $L_1$ 正则化线性回归是统计学中类似的基本模型，通常被称为套索回归（lasso regression）。 $L_2$ 正则化回归的小批量随机梯度下降更新如下式：
$\begin{aligned} \mathbf{w} & \leftarrow \left(1- \eta\lambda \right) \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right). \end{aligned}$

性能优化

动量法

添加动量因子
在这里插入图片描述

自适应梯度算法

AdaGrad自适应梯度

使用变量 $\mathbf{s}_t$ 来累加过去的梯度方差，如下所示：

$\begin{aligned} \mathbf{g}_t & = \partial_{\mathbf{w}} l(y_t, f(\mathbf{x}_t, \mathbf{w})), \\ \mathbf{s}_t & = \mathbf{s}_{t-1} + \mathbf{g}_t^2, \\ \mathbf{w}_t & = \mathbf{w}_{t-1} - \frac{\eta}{\sqrt{\mathbf{s}_t + \epsilon}} \cdot \mathbf{g}_t. \end{aligned}$

通过该方法调整学习率，使学习率随着学习次数的增加而减小。
在这里插入图片描述

RMSProp

按动量法中的方式使用泄漏平均值，即 $\mathbf{s}_t \leftarrow \gamma \mathbf{s}_{t-1} + (1-\gamma) \mathbf{g}_t^2$ ，其中参数 $\gamma > 0$ 。可以解决AdaGrad方法中学习率过渡衰减的问题。通过如下公式调整学习率：
$\begin{aligned} \mathbf{s}_t & \leftarrow \gamma \mathbf{s}_{t-1} + (1 - \gamma) \mathbf{g}_t^2, \\ \mathbf{x}_t & \leftarrow \mathbf{x}_{t-1} - \frac{\eta}{\sqrt{\mathbf{s}_t + \epsilon}} \odot \mathbf{g}_t. \end{aligned}$
常数 $\epsilon > 0$ 通常设置为 $10^{-6}$ ，以确保我们不会因除以零或步长过大而受到影响。
在这里插入图片描述

Adam

Adam使用指数加权移动平均值来估算梯度的动量和二次矩

$\begin{aligned} \mathbf{v}_t & \leftarrow \beta_1 \mathbf{v}_{t-1} + (1 - \beta_1) \mathbf{g}_t, \\ \mathbf{s}_t & \leftarrow \beta_2 \mathbf{s}_{t-1} + (1 - \beta_2) \mathbf{g}_t^2. \end{aligned}$

$\beta_1$ 和 $\beta_2$ 是非负加权参数。常将它们设置为 $\beta_1 = 0.9$ 和 $\beta_2 = 0.999$ 。即方差估计的移动远远慢于动量估计的移动。如果我们初始化 $\mathbf{v}_0 = \mathbf{s}_0 = 0$ ，会获得一个相当大的初始偏差。可以通过使用 $\sum_{i=0}^t \beta^i = \frac{1 - \beta^t}{1 - \beta}$ 来解决这个问题。相应地，标准化状态变量由下式获得