神经网络基础

最新推荐文章于 2024-04-17 18:16:39 发布

积跬步以至千里。

最新推荐文章于 2024-04-17 18:16:39 发布

阅读量1.5k

点赞数 2

分类专栏：机器学习文章标签：神经网络机器学习人工智能

本文链接：https://blog.csdn.net/SpiritedAway1106/article/details/111563014

版权

机器学习专栏收录该内容

13 篇文章 5 订阅

订阅专栏

文章目录

1. 引言

人工神经网络（英语：Artificial Neural Network，ANN），简称神经网络（Neural Network，NN）或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

$1943$ 年，心理学家 $\ McCulloch$ 和年轻的数学家 $Walter\ Pitts$ 在合作的 $\ logical \ calculus \ of \ the \ ideas \ immanent \ in \ nervous \ activity》$ 论文中提出并给出了人工神经网络的概念及人工神经元的数学模型，被称为 $M - P$ 模型(以两人的名字命令)，开创了人工神经网络研究的时代。

$M - P$ 模型很简单，如下图所示

M_P模型

神经元接收 $m$ 个信号输入，并通过加权计算，得到神经元的总输入值，加上偏置之后，通过激活函数得到最终的结果。理想的激活函数是阶跃函数，它能将输入值映射为 $0$ 和 $1$ ，对应神经网络中神经元的“兴奋”与“抑制”状态。该模型对应的数学表达式为

$\phi(\sum\limits_{i=1}^m{w_ix_i}+b) = \phi(w^Tx+b)$

$1957$ 年， $\ Rosenblatt$ 从纯数学角度重新研究 $M - P$ 模型，指出对一些输入输出对 $(X, y)$ 可以通过学习的方式，求得 $w$ 和 $b$ ，即为"感知机"模型，该模型在机器学习算法篇第一篇已经进行了详细讲述，这里不再展开介绍，感兴趣的话，可以查看《感知机模型详解》。

$1969$ 年， $M i n s k y$ 等人出版了 $《 P e r c e p t r o n 》$ 一书，用数学详细证明了感知机的不足，甚至不能处理简单的异或问题。

要解决非线性可分问题，需要增加多层神经元，使用下图简单的两层感知机就可以解决异或问题

两层神经网络处理异或问题

上述模型就是一个很简单的多层神经网络模型，我们进行一般化研究，得到下面的层级结构，先从简单的开始，一步步认识并了解神经网络。

2. 多层神经网络

两层神经网络

这是一个十分简单的多层神经网络模型，每层神经元都与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接，这样的神经网络结构通常称为“多层前馈神经网络”，其包含输入特征 $x_1、x_2$ ，叫做神经网络的输入层(图中最左边绿色圆圈)，该层的神经元叫做输入神经元。最右侧一层，只有一个节点，被称作输出层（图中最右边红色圆圈) 。输入层和输出层之间的中间层，被称为隐藏层（图中间灰色圆圈）。接下来我们将该图为例，讲解神经网络的基础知识。
关于神经网络层数的定义

从左到右，由第0层开始定义，原因是最左侧是输出层，其只负责从外界接收输入，不进行任何函数处理，因此我们不将输入层计入神经网络的层数或者将输入层记为第0层。由此可知，上图表示的是一个两层神经网络
神经网络的计算

结合 $M - P$ 模型，我们知道单个神经元的输出为 $\phi(\sum\limits_{i=1}^m{w_ix_i}+b)$ ，为了方便描述，我们记做 $\sum\limits_{i=1}^m{w_ix_i}+b$ ，输出 $\phi(z)$ .

按照这样的规则，我们尝试计算上面的两层神经网络的第一层，由上至下有

$z^{[1]}_1 = x_1* w_{11}^{[1]}+x_2* w_{21}^{[1]}+b_1^{[1]}，\quad a_1^{[1]} = \phi_1(z_1^{[1]})$

其中 $z^{[1]}_1$ 表示该神经网络第 $[1]$ 层第 $1$ 个神经元的非激活值。

$a_1^{[1]}$ 表示该神经网络第 $[1]$ 层第 $1$ 个神经元的最终输出值，也是下一层神经元的输入，叫做激活值

$w_{21}^{[1]}$ 表示该神经网络第 $[1]$ 层第一个 $1$ 个神经元与输入(层)的第 $2$ 个特征 $x_2$ 的连接权重

$\phi_1$ 表示第 $1$ 层神经元的激活函数，是一个非线性函数

则此时有

$\begin{aligned} &z^{[1]}_2 = x_1* w_{12}^{[1]}+x_2* w_{22}^{[1]}+b_2^{[1]}，\quad a_2^{[1]} = \phi_1(z_2^{[1]}) \\ &z^{[1]}_3 = x_1* w_{13}^{[1]}+x_2* w_{23}^{[1]}+b_3^{[1]}，\quad a_3^{[1]} = \phi_1(z_3^{[1]}) \\ &z^{[2]}_1 = a_1^{[1]}* w_{11}^{[2]}+a_2^{[1]}* w_{21}^{[2]}+a_3^{[1]}* w_{31}^{[2]}+b_1^{[2]}，\quad a_1^{[2]} = \phi_2(z_1^{[2]}) \\ &y=a_1^{[2]} \end{aligned}$

$\phi_2(\phi_1(x_1* w_{11}^{[1]}+x_2* w_{21}^{[1]}+b_1^{[1]})* w_{11}^{[2]}+\phi_1(x_1* w_{12}^{[1]}+x_2* w_{22}^{[1]}+b_2^{[1]})* w_{21}^{[2]}+\phi_1(x_1* w_{13}^{[1]}+x_2* w_{23}^{[1]}+b_3^{[1]})* w_{31}^{[2]}+b_1^{[2]})$
神经网络计算的向量化

将神经网络的每一层的神经元参数进行向量化处理，能够大大提高计算速度，也利于编程实现，如上图中第一层的权重参数可表示成一个 $(3\times 2)$ 的矩阵

$\begin{bmatrix} w_{11}^{[1]} & w_{12}^{[1]} & w_{13}^{[1]} \\ w_{21}^{[1]}&w_{22}^{[1]} & w_{23}^{[1]} \end{bmatrix}^T$

记做 $W^{[1]}$ 。第一层神经元的偏置可以用一个 $(3\times 1)$ 的矩阵表示 $\begin{bmatrix}b_1^{[1]} & b_2^{[1]}&b_3^{[1]}\end{bmatrix}^T$ ，记做 $b^{[1]}$ 。同理，非激活值 $z^{[1]} = \begin{bmatrix}z_1^{[1]} & z_2^{[1]}& z_3^{[1]}\end{bmatrix}^T$ ，激活值为 $a^{[1]} = \begin{bmatrix}a_1^{[1]} & a_2^{[1]}&a_3^{[1]}\end{bmatrix}^T$ ，该层的输入可表示为 $\begin{bmatrix}x_1 & x_2\end{bmatrix}^T$ ，为了符号描述统一，我们将输入层记做 $a^{[0]}$ ，即 $a^{[0]}= \begin{bmatrix}x_1 & x_2\end{bmatrix}^T$

根据神经网络的计算规则可知，此时有以下公式成立

$z^{[1]} = W^{[1]} \cdot a^{[0]} + b^{[1]},\quad a^{[1]} = \phi_1(z^{[1]})$

$z^{[2]} = W^{[2]} \cdot a^{[1]} + b^{[2]},\quad a^{[2]} = \phi_2(z^{[2]})$

$a^{[2]} = \phi_2(W^{[2]} \cdot \phi_1(W^{[1]} \cdot a^{[0]} + b^{[1]}) + b^{[2]})$

如此，传入神经网络的信息，通过层层处理，得到最终的输出，传递过程可表示为

$a^{[0]} \stackrel{W^{[1]}、b^{[1]}}\longrightarrow z^{[1]} \stackrel{\phi_1}\longrightarrow a^{[1]}\stackrel{W^{[2]}、b^{[2]}}\longrightarrow z^{[2]} \stackrel{\phi_2}\longrightarrow a^{[2]} = y$

3. 关于激活函数

为什么需要非线性激活函数

前面我们提到激活函数 $\phi$ 要求是非线性函数，我们试着去掉神经网络中的激活函数 $\phi_1$ 和 $\phi_2$ ，或者令 $\phi_1(z) = z,\phi_2(z) = z$ ，此时有神经网络的输出

$y=W^{[2]} \cdot W^{[1]} \cdot a^{[0]} + W^{[2]} \cdot b^{[1]} + b^{[2]}$

令 $W^{[2]} \cdot W^{[1]} = W',W^{[2]} \cdot b^{[1]} + b^{[2]}= b'$

则 $y=W'\cdot a^{[0]}+b'$ ，可以发现，使用一个隐藏层，其输出仍是对输入的线性组合，可以证明，不管中间使用多少个隐藏层，只要不使用激活函数或者使用线性激活函数，其输出都只是对输入做线性组合，最终均可以写成 $y=W'\cdot a^{[0]}+b'$ 的形式，即此时增加神经网络的深度没有任何意义，反而增加计算量，且其效果等同于单层神经网络，只能处理线性问题，可用性将非常受限，因此我们需要非线性的激活函数。

虽然我们要求隐藏层必须使用非线性激活函数，但是有些情况下，输出层神经元可以使用线性激活函数的，比如在处理回归问题的时候，输出是一些连续的数值时，可以在输出层使用线性激活函数。

下面介绍几种常见的激活函数，其中蓝色线为原函数图像，黄色线条为其导函数的图像

几种激活函数

阶跃( $S t e p$ )函数

$\phi(z) = \begin{cases} 1 \quad z \geq 0 \\ 0 \quad z<0 \end{cases} \quad \phi(z)’ = \begin{cases} 0 \quad z \neq 0 \\ 不可导 \quad z=0 \end{cases}$

阶跃函数是比较理想的激活函数，它能将输入值映射为 $1$ 和 $0$ ，对应神经网络中神经元的“兴奋”与“抑制”状态，但是该函数不连续，不光滑，且在可导的地方导数为 $0$ 导致无法使用梯度下降法进行求解，因此一般我们不使用该激活函数。
$S i g m o i d$

$\phi(z) = \frac{1}{1+e^{-z}} \quad \phi(z)'= \phi(z)(1-\phi(z))$

结合函数图像进行分析可知
1. 该函数可以把一个实数域的输入"挤压"到 $0$ 和 $1$ 之间，因此也叫做挤压函数
2. 在 $0$ 附近函数可近似看着线性函数，输入越小越接近 $0$ ，输入越大越接近 $1$ ，可用来表示概率(事实上，可以从概率公式推导出该函数，这里暂不介绍)，十分适合用来做二分类问题，其他场景已很少使用
3. 该函数连续可导
4. 利用 $\phi(z)'= \phi(z)(1-\phi(z))$ 计算导数会十分方便
5. 输入特别大或者特别小时，导数会变得特别小，最终趋于 $0$ ，会导致梯度下降缓慢，不利于学习
6. $S i g m o i d$ 函数输出不是 $0$ 均值的，可能会造成模型收敛缓慢，关于这点会在讲解 $B P$ 算法时具体说明
7. 指数运算相对复杂耗时
$T a n h$

$\phi(z) = \frac{e^z-e^{-z}}{e^z+e^{-z}} \quad \phi(z)' = 1-[\phi(z)]^2$
1. 图像跟 $S i g m o i d$ 很相似，事实上 $T a n h$ 函数是 $S i g m o i d$ 的向下平移和伸缩后的结果
2. 该函数连续可导，且求导比较方便
3. 函数值域为 $(- 1, 1)$ ，其输出是是 $0$ 均值的，避免了 $S i g m o i d$ 输出不是 $0$ 均值可能造成的模型收敛缓慢问题
4. 输入特别大或者特别小时，导数会变得特别小，最终趋于 $0$ ，会导致梯度下降缓慢，不利于学习
5. 指数运算相对复杂耗时
$R e l u$

$\phi(z) = \begin{cases} z \quad z \geq 0 \\ 0 \quad z<0 \end{cases} = \max(0,z)\quad \phi(z)'= \begin{cases} 1 \quad z > 0 \\ 不可导 \quad z=0 \\ 0 \quad z<0 \end{cases}$

$\ Linear \ Unit)$ ，修正线性单元，也叫 $R e c t i f i e r$ 函数，是目前深度神经网络中经常使用的激活函数。具有以下性质
1. 采用 $R e L U$ 的神经元只需要进行加、乘和比较的操作，计算上更加高效
2. 该函数将所有的负值变为 $0$ ，所有正值保持不变，使得 $R e L U$ 函数具有生物上的解释性，比如单侧抑制、宽兴奋边界(即兴奋程度也可以非常高)。在生物神经网络中，同时处于兴奋状态的神经元非常稀疏。人脑中在同一时刻大概只有 $1\% ∼ 4\%$ 的神经元处于活跃状态。 $R e L U$ 却具有很好的稀疏性，大约 $50\%$ 的神经元会处于激活状态
3. 输入大于 $0$ 时，导数为 $1$ ，不会造成梯度消失问题。输入为负值时，导数为 $0$ ，则不会对该神经元进行学习，从而产生稀疏性。
4. $R e L U$ 函数的输出也不是 $0$ 均值的，可能会造成模型收敛缓慢
5. $R e l u$ 神经元在训练时，可能出现”死亡神经元“，即有些神经元将永远不会被激活
$\ Relu$

$\phi(x) = \begin{cases} z \quad z \geq 0 \\ \alpha z \quad z<0 \end{cases} \quad \phi(z)'= \begin{cases} 1 \quad z > 0 \\ 不可导 \quad z=0 \\ \alpha \quad z<0 \end{cases}$

$\ Relu$ 叫做带泄露的 $R e L U$ ，不同于 $R e l u$ 的是，输入为负值时，输出为 $\alpha z$ ，其中 $\alpha$ 是一个很小的正值，这会让函数在负值时，也有一个很小的导数 $\alpha$ ，从而避免 $\ ReLU$ 问题

4. 通用近似定理 ( $\ approximation \ theorem$ )

令 $\phi(\cdot)$ 是一个非常数、有界、单调递增的连续函数， $\mathcal{I}_d$ 是一个 $d$ 维的单位超立方体 $0,1]^d$ ， $C(\mathcal{I}_d)$ 是定义在 $\mathcal{I}_d$ 上的连续函数集合。对于任何一个函数 $\in C(\mathcal{I}_d)$ ，存在一个整数 $m$ ，和一组实数 $v_i,b_i \in R$ 以及实数向量 $w_i \in R^d, \quad i=1,\cdots,m$ ，以至于我们可以定义函数

$\sum\limits_{i=1}^mv_i\phi(w_i^Tx+b_i)$ 作为函数 $f$ 的近似实现，即

$\epsilon , \forall_x \in \mathcal{I}_d$ 其中 $\epsilon >0$ 是一个很小的正数

该定理表明，一个前馈神经网络如果具有线性输出层和至少一层具有任何一种‘‘挤压’’ 性质的激活函数（例如logistic sigmoid激活函数）的隐藏层，只要给予网络足够数量的隐藏单元，它可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的Borel 可测函数。

科特·霍尼克（ $\ Hornik$ ）在 $1991$ 年证明，激活函数的选择不是关键，前馈神经网络的多层神经层及多神经元架构才是使神经网络有成为通用逼近器的关键，但也有研究将此定理扩展至其他类型的神经网络，如卷积神经网络、放射状基底函数网络、或其他特殊神经网络

总之，该定理告诉我们神经网络具有十分强大的表达能力，我们可以认为，具有单个隐藏层的神经网络可以以任意精度近似任意的连续函数，但是该定理并没有指出我们该如何选择神经网络的参数，以及为了近似目标函数，这个神经网络会有多大。

5. 三层神经网络模拟任意决策面

我们使用三层神经网络，在二维平面模拟多种决策面，来帮助我们理解通用近似定理，为了简化说明，这里激活函数均选择阶跃函数，也就是说神经元的输出只有 $0$ 或 $1$ 。

如下图左侧的决策面，阴影部分表示 $C_1$ 类，之外的部分表示 $C_2$ 类，我们该如何设计神经网络完成分类呢？

观察可知，该决策面由三条直线组成，因此第一层需要三个神经元，并规定三条直线的 $C_1$ 侧的激活值为 $1$ ，否则为 $0$ ，基于这种规定，我们知道一个实例点属于 $C_1$ 类时，必须满足第一层三个神经元的输出均为 $1$ ，因此我们可以设计如上图右侧的两层神经网络即可完成该分类任务，根据该神经网络的输出层(第二层)权重 $w$ 和偏置 $b$ 的设定可知，只有当输出层的输入(即第一层的输出) $a_1^{[1]}=a_2^{[1]}=a_3^{[1]}=1$ 时，才能满足 $z_1^{[2]} >0$ ，从而经过阶跃函数激活之后有 $a_1^{[2]}=1$ 即输出 $y = 1$ ，正确完成分类。
同理，如下图左侧的多边形决策面，我们可以设计下图右侧的两层神经网络完成数据分类
对于下图左侧的圆形决策面以及右侧的不规则图形的决策面，我们可以利用微分法，沿着决策面的边缘，分割成无数条小线段，从而设计出对应的神经网络，该神经网络仍然可以是两层的，只不过第一层的神经元个数是无限个
如下图左侧图形所示，我们还会遇到此类的决策面，由两个相离的面组成，此时我们可以设计下图右侧的神经网络，该神经网络有三层，与前面不同的是，输出层的两个输入是或的关系，即实例点落在任意一个三角形决策面内，都认为是 $C_1$ 类的，这跟图像也是吻合的。