[DL_BOOK]深度学习第六章深度前向网络 [part1]

最新推荐文章于 2022-06-14 16:29:59 发布

Jacky_QinXm

最新推荐文章于 2022-06-14 16:29:59 发布

阅读量671

点赞数

分类专栏：深度学习 DL 文章标签：深度学习网络 MIT

本文链接：https://blog.csdn.net/u011268606/article/details/77162791

版权

DL 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

深度学习

1 篇文章 0 订阅

订阅专栏

先记录一些相关的blog:
https://zybuluo.com/hanbingtao/note/581764

Deep Learning Book chpt 6
Deep Feedforward Network

简介

深度前向网络(Deep Feedforward network)通常也称为前向神经网络，或者多层感知机(MLPs)，是很典型的(quintessential)深度学习模型。前向网络的目的是估计出一些函数 $f^*$ ，比如分类器 $y=f^*(x)$ ，就是将输入 $x$ 映射到某个类别 $y$ 。

定义前向网络定义了映射 $y=f(x;\theta)$ ，通过学习参数 $\theta$ 估计出最好的映射。
上述模型中的前向是指信息流从输入 $x$ ，经过中间计算( $f$ )后得到输出 $y$ ，整个过程中不存在从输出到输入的反向连接。如果网络中带有反馈连接，则称之为递归神经网络(Recurrent neural network)，后续会有介绍。

前向网络对于实践机器学习非常重要，是很多商业应用的基础。比如图像中的目标识别所用到的卷积网络就是前向网络的一种，自然语言处理应用中的递归网络也是以前向网络为基础的。

前向神经网络之所以称为网络，是因为它们通常有很多函数组成，可以参考有向无环图来理解。以三个函数 $f^{(1)}$ ， $f^{(2)}$ ， $f^{(3)}$ 为例，神经网络的通用结构就是构建一条链，得到 $f(x)=f^{(3)}(f^{(2)}(f^{(1)}(x)))$ 。其中， $f^{(1)}$ 是网络的第一层， $f^{(1)}$ 是第二层，以此类推。最后一层称为输出层，网络的深度就是链的长度。这也是术语“深度学习”的来源。网络训练的过程，实际就是 $f(x)$ 与 $f^*(x)$ 逐步接近的过程。训练集是一系列点， $(\mathbf x, y)$ 。其中 $\mathbf x$ 用于估计 $f^*(x)$ ，使得网络的输出尽可能的接近真值 $y$ 。值得注意的是，真值只对输出进行监督，网络中间层的参数是靠学习算法来迭代更新的，所以中间的这些层可以认为是隐含层。

实际上，每个隐含层都是一个向量，这些向量的维度决定了模型的宽度(width)。神经网络称呼的灵感来自于神经系统科学，所以上述向量的每个元素可以类比为一个个神经元。

如上图(图片来源ufldl)，每层都可以理解为向量到单个数值的映射。

注：个人觉得ufldl的wiki写的挺清楚的，可以参考读一下。

需要说明的是，神经网络并不是要建模人脑，只是建模一系列函数来近似达到统计上的普遍性规律。

一个理解前向网络的方式是从线性模型开始，并考虑如何克服线性模型的局限性。Logistic回归、线性回归都属于线性模型，它们能够有效、快速的拟合，无论是闭合解还是用凸优化的方式。当然了，线性模型的局限性也很明显，不能拟合非线性的情况，比如多个输入变量。为了提升线性模型的能力，我们可以用一个非线性的核( $\phi$ )对输入进行转换，从而得到一个非线性的学习算法。

注：非线性核实际上就是一个函数，比如SVM中的高斯核、径向基核等。

那么，问题来了，如何选择映射函数 $\phi$ 呢？
1. 选择非常通用的映射函数，如RBF核中隐含使用的无限维映射。理论上，只要 $\phi(x)$ 有足够高的维度，我们是有足够的能力去拟合训练集的，但是在测试集上的泛化能力就会非常弱。(注：也就是所谓的过拟合)
2. 人为选择映射函数，在深度学习之前，人们经常使用。针对不同的任务，人们都需要花费很大的经历来设定映射函数。比如语音识别和计算机视觉，映射函数可能完全不一样，而且它们基本无法相互转换。
3. 学习映射函数，这就是深度学习所采用的策略。在深度学习中，模型可以定义为 $y=f(x;\theta,w)=\phi(x;\theta)^Tw$ 。通过参数 $\theta$ 从一系列函数中学习得到 $\phi$ ，而参数 $w$ 则将 $\phi(x)$ 映射到我们想要的输出上，实际上， $\phi$ 是深度网络中的隐含层。

下面会从一个例子开始后续的介绍。

6.1 举例：学习异或XOR

这里从一个简单的任务开始，即学习异或函数。异或是逻辑运算中的概念，对于两个布尔值，当它们不一样的时候得到1，其他的情况为0。如下表：

x 1 0011 x 2 0101 x 1 \oplus x 2 0110

$\begin{array}{cc|c} x_1 & x_2 & x_1 \oplus x_2 \\ \hline 0 & 0 & 0 \\ 0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0 \end{array}$
假设异或的目标函数为

y=f∗(x) $y=f^*(\mathbf x)$ ，模型中提供的函数为

y=f(x;θ) $y=f(\mathbf x; \mathbf \theta)$ ，那么学习算法的目的就是通过调整参数

θ $\theta$ 使得

f $f$ 与尽可能的与

f∗ $f^*$ 接近。

在这个例子中，我们不关心统计上的普适性，只要求函数能够很好的拟合上述四个点，即这个问题的训练集 $\Bbb X =\{[0, 0]^T, [0, 1]^T, [1, 0]^T, [1, 1]^T\}$ ，其对应的真值为 $\Bbb Y = \{0, 1, 1, 0\}$ ，与上表对应。可以用回归问题(regression)来拟合这个函数，为了简化问题，选择MSE(Mean Squared Error)作为损失函数，如下：

J (θ) = 1 4 \sum x \in X (f * (x) - f (x; θ)) 2 .

$J(\theta)=\frac{1}{4}\sum_{\mathbf x \in\Bbb X} (f^*(\mathbf x)-f(\mathbf x;\theta))^2.$
需要留意下，

x $\mathbf x$ 都是表示的向量。然后，我们要选择模型的形式，也就是目标函数，这里选择线性模型，如下：

f (x; w, b) = x T w + b .

$f(\mathbf x; \mathbf w, b)=\mathbf x^T\mathbf w + b.$
建立好模型函数和损失函数后，可以通过最小化

J(θ) $J(\theta)$ 求得参数

w=0 $\mathbf w=\mathbf 0$ ，

b=12 $b=\frac{1}{2}$ 。

理解
最小化 $J(\theta)$ 是通过极大似然估计实现的，即对参数 $\mathbf w$ 和 $b$ 的偏导数为0。首先，Loss function为

J (θ) = J (w, b) = 1 4 \sum x \in X (f * (x) - f (x; w, b)) 2 = 1 4 \sum x \in X (f * (x) - (x T w + b)) 2

$\begin{align} J(\theta)=J(\mathbf w, b) & =\frac{1}{4}\sum_{\mathbf x \in\Bbb X} (f^*(\mathbf x)-f(\mathbf x;\mathbf w, b))^2 \\ & =\frac{1}{4}\sum_{\mathbf x \in\Bbb X} (f^*(\mathbf x)-(\mathbf x^T \mathbf w + b))^2 \end{align}$
那么极大似然估计的求解过程如下：

\partial J \partial w = 1 2 \sum x \in X [(f * (x) - (x T w + b)) (- x T)] = 0 \partial J \partial b = 1 2 \sum x \in X (f * (x) - (x T w + b)) = 0

$\begin{align} & \frac{\partial J}{\partial \mathbf{w}}= \frac{1}{2}\sum_{\mathbf x \in\Bbb X} \left [ (f^*(\mathbf x)-(\mathbf x^T \mathbf w + b))(-\mathbf x^T) \right] =\mathbf 0 \\ & \frac{\partial J}{\partial b} =\frac{1}{2}\sum_{\mathbf x \in\Bbb X} \left (f^*(\mathbf x)-(\mathbf x^T \mathbf w + b) \right ) =0 \end{align}$
将训练集

X $\Bbb X$ 和真值

Y=f∗(x) $\Bbb Y = f^*(\mathbf x)$ 带入到上面两个公式中，便可求得

w=0 $\mathbf w = \mathbf 0$ ，

b=12 $b=\frac{1}{2}$ 。顺便提一下，

x $\mathbf x$ ，

w $\mathbf w$ 都是向量，在计算的时候可以展开来表示，

x=(x1,x2) $\mathbf x = (x_1, x_2)$ ，

w=(w1,w2) $\mathbf w = (w_1, w_2)$ 。

很显然，线性函数无法拟合异或操作。如果还不能理解，可以把上述四个点在坐标系中呈现出来，就很明显的看出其不是线性可分的。要解决这个问题，可以用核函数把原始输入映射到另外一个线性可分的空间中。在神经网络中，通过隐含层来达到这一目的。如隐含层 $\mathbf h = f^{(1)}(\mathbf x; \mathbf W, c)$ ，输出层 $y=f^{(2)}(\mathbf h; \mathbf w, b)$ 。

那么，问题来了，如何得到隐含层的函数 $f^{(1)}$ 呢？前面已经证明了线性函数是不能解决异或问题的，所以我们在神经网络中引入激活函数来实现非线性的变换，记 $h=g(\mathbf W^t \mathbf x + \mathbf c)$ 。通常使用的激活函数是ReLU(rectified Linear Unit)，即 $g(x)=max\{0, x\}$ 。我们下面用简单的例子说明网络正向传递的方式，如图
网络结构
图中， $x$ 为输入(以 $(x_1, x_2)$ 为例)， $h$ 表示中间层， $y$ 表示输出，激活函数在中间层 $h=g(h')$ ，假设 $h'$ 是激活前的输出。则：

h' 1 = W 11 x 1 + W 21 x 2 + c 1 h' 2 = W 12 x 1 + W 22 x 2 + c 2 h 1 = g (h' 1) = m a x {0, h' 1} h 2 = g (h' 2) = m a x {0, h' 2} y = w 1 h 1 + w 2 h 2 + b

$\begin{align} & h'_1 = W_{11} x_1 + W_{21} x_2 + c_1\\ & h'_2 = W_{12} x_1 + W_{22} x_2 + c_2 \\ & h_1 = g(h'_1) = max\{0, h'_1\} \\ & h_2 = g(h'_2) = max\{0, h'_2\} \\ & y = w_1 h_1 + w_2 h_2 + b \end{align}$
在原书中，给了一组特定的参数来说明上述的过程，这里就不说明了。在实际运算中，参数有很多，需要通过梯度下降的方式逐步的求得最优的解。

6.2 梯度学习方法

神经网络的训练过程跟其他学习方法并没有太大的区别，都是基于梯度下降的，无外乎代价函数、优化的过程以及一系列模型函数。但是，有个关键的区别需要说明，即神经网络的损失函数是非凸的。而线性回归、SVM等属于凸优化，理论上是都能找到最优解的。而神经网络的训练优化是需要通过迭代逐步的找到最优解(实际上，是否是最优解也不太确定)，这个过程是通过随即梯度下降(SGD，Stochastic Gradient Descent)来完成的，所有的参数在开始都是随机初始化的。这些在后续会有详细的说明，我们先来一层层的剖析神经网络。