二、深度前馈网络——Part II

最新推荐文章于 2024-09-21 22:55:58 发布

究极人工智能瞎琢磨

最新推荐文章于 2024-09-21 22:55:58 发布

阅读量233

点赞数

分类专栏： # 花书学习笔记文章标签：深度学习

本文链接：https://blog.csdn.net/joymakleson/article/details/107621580

版权

本文深入探讨了深度前馈网络的隐藏单元设计，重点介绍了整流线性单元（ReLU）及其扩展，如Leaky ReLU和PReLU。还讨论了logistic sigmoid和双曲正切函数的优缺点。此外，文章强调了网络架构设计的重要性，包括网络深度和宽度的选择，并提及了万能近似定理。最后，详细阐述了反向传播算法的工作原理，包括链式法则的应用和计算图的概念。

摘要由CSDN通过智能技术生成

上接第一部分

深度前馈网络

4、隐藏单元
- 4.1、整流线性单元及其扩展
- 4.2、logistic sigmoid与双曲正切函数
5、架构设计
- 5.1、万能近似性质和深度
- 5.2、其他架构上的考虑
6、反向传播和其他的微分算法

4、隐藏单元

隐藏单元的设计是一个非常活跃的研究领域，并且还没有太多明确的指导性理论原则。整流线性单元（rectified linear units）是隐藏单元极好的默认选择。我们这里描述对于每种隐藏单元的一些基本直觉。先直觉认为某种隐藏单元可能表现良好，然后用它组成神经网路进行训练，最后用验证集来评估它的性能。

这里列出的一些隐藏单元可能并不是在所有输入点都是可微的。例如，整流线性单元 $g(z)=max\{0,z\}$ 在 $z = 0$ 处不可微。这似乎使得 $g$ 无法使用基于梯度的学习算法。然而在实践中，梯度下降对这些机器学习模型仍然表现得足够好。部分原因是神经网路训练算法通常不会达到代价函数的局部最小值，而是仅仅显著地减少它的值，所有代价函数的最小值对应于梯度未定义的点是可以接受的。不可微的隐藏单元通常只在少数点上不可微。在实践中，我们可以放心地忽略下面描述的隐藏单元激活函数的不可微性。

除非另有说明，大多数的隐藏单元都可以描述为接受输入向量 $\boldsymbol{x}$ ，计算仿射变换 $\boldsymbol{z=W}^T\boldsymbol{x+b}$ ，然后应用逐元素非线性函数 $g(\boldsymbol{z})$ 。大多数隐藏单元的区别仅在于激活函数 $g(\boldsymbol{z})$ 的形式。

4.1、整流线性单元及其扩展

整流线性单元使用激活函数 $g(z)=max\{0,z\}$ 。整流线性单元易于优化，因为它们与线性单元非常类似。两者唯一区别在于整流线性单元在其一半的定义域上输出为零。这使得只要整流线性单元处于激活状态，它的导数都保持较大。整流操作的二阶导数几乎处处为0，并且在整流线性单元处于激活状态时，它的一阶导数处处为1。整流线性单元通常作用于仿射变换之上： $\boldsymbol{h=}g(\boldsymbol{W}^T\boldsymbol{x+b})$ 将 $\boldsymbol{b}$ 的所有元素设置为一个小的正值使得整流线性单元很可能初始时就对训练集中的大多数输入呈现激活状态。

整流线性单元的一个缺陷是它们不能通过基于梯度的方法学习那些使它们激活为零的样本。对整流线性单元进行扩展来保证它们能在各个位置都接收到梯度。下述三个扩展基于当 $z_i<0$ 时使用一个非零的斜率 $\alpha_i$ ： $h_i=g(\boldsymbol{z},\alpha)_i=max(0,z_i)+\alpha_imin(0,z_i)$ 。

绝对值整流（ absolute value rectification）固定 $α_i = −1$ 来得到 $g (z) = ∣ z ∣$ 。它用于图像中的对象识别，其中寻找在输入照明极性反转下不变的特征是有意义的。
渗漏整流线性单元（ Leaky ReLU）将 $α_i$ 固定成一个类似 0.01 的小值。
参数化整流线性单元（ parametric ReLU）或者 PReLU 将 $α_i$ 作为学习的参数。
maxout 单元（ maxout unit）：将 z 划分为每组具有 k 个值的组，每个maxout 单元则输出每组中的最大元素： $g(\boldsymbol{z})_i=\underset{j\in\mathbb{G}^{(i)}}{max}\,z_j$ 其中 $\mathbb{G}^{(i)}$ 是组 $i$ 的输入索引集 ${(i − 1)k + 1,...,ik\}$ 。这提供了一种方法来学习对输入 $x$ 空间中多个方向响应的分段线性函数。

maxout 单元可以学习具有多达 k 段的分段线性的凸函数。maxout 单元因此可以视为学习激活函数本身而不仅仅是单元之间的关系。使用足够大的 k， maxout 单元可以以任意的精确度来近似任何凸函数。比如，具有两块的 maxout 层可以学习实现和上述单元相同或不同的激活函数。每个 maxout 单元现在由 k 个权重向量来参数化，所以 maxout 单元通常比整流线性单元需要更多的正则化。如果训练集很大并且每个单元的块数保持很低的话，它们可以在没有正则化的情况下表现良好。

4.2、logistic sigmoid与双曲正切函数

在引入整流线性单元之前，大多数神经网络使用 logistic sigmoid 激活函数 $g(z)=\sigma(z)$ 或者是双曲正切激活函数 $g (z) = t a n h (z)$ 。这两个激活函数之间的关系： $tanh(z)=2\sigma(2z)-1$ 。

sigmoid 单元在其大部分定义域内都饱和，这一广泛饱和性会使得基于梯度的学习变得非常困难，所以不鼓励将它们用作前馈网络中的隐藏单元。当使用一个合适的代价函数来抵消 sigmoid 的饱和性时（log抵消exp），它们作为输出单元可以与基于梯度的学习相兼容。

当必须要使用 sigmoid 激活函数时，双曲正切激活函数通常要比logistic sigmoid 函数表现更好。在 $t a n h (0) = 0$ 而 $\frac{1}{2}$ 的意义上， $t a n h$ 在 0 附近与单位函数更类似，只要网络的激活能够被保持地很小，训练深层神经网络 $\overset{\text{\textasciicircum}}{y}=\boldsymbol{\omega}^Ttanh(\boldsymbol{U}^Ttanh(\boldsymbol{V}^T\boldsymbol{x}))$ 类似于训练线性模型 $\overset{\text{\textasciicircum}}{y}=\boldsymbol{\omega}^T\boldsymbol{U}^T\boldsymbol{x}$ 。

5、架构设计

神经网路的架构是指：它应该具有多少单元，以及这些单元应该如何连接。大多数神经网络被组织成称为层的单元组。大多数神经网络架构将这些层布置成链式结构，其中每一层都是前一层的函数。在这种结构中，第一层由下式给出： $\boldsymbol{h}^{(1)}=g^{(1)}(\boldsymbol{W}^{(1)T}\boldsymbol{x+b}^{(1)})$ 第二层由 $\boldsymbol{h}^{(2)}=g^{(2)}(\boldsymbol{W}^{(2)T}\boldsymbol{h}^{(1)}+\boldsymbol{b}^{(2)})$