吴恩达机器学习（五）神经网络 1/2 —— 模型构建

最新推荐文章于 2022-08-10 12:31:47 发布

Fun'

最新推荐文章于 2022-08-10 12:31:47 发布

阅读量1.9k

点赞数 14

分类专栏：机器学习文章标签：神经网络机器学习人工智能

本文链接：https://blog.csdn.net/m0_37867091/article/details/104611009

版权

机器学习专栏收录该内容

21 篇文章 281 订阅

订阅专栏

参考：
神经网络浅讲：从神经元到深度学习
 机器学习笔记week4

本章目录

1. 神经元模型
2. 神经网络模型

1. 神经元模型

（Neurons Model）

为了构建神经网络模型，我们需要首先思考大脑中的神经网络是怎样的。而神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络，因此先来看看什么是神经元。

神经元可以简化为以下结构：

多个树突，主要用来接受传入信息
一个 细胞核
一条轴突，轴突尾端有许多 轴突末梢 可以给其他多个神经元传递信息，轴突末梢 跟其他神经元的树突产生连接，从而传递信号。

在这里插入图片描述

神经元模型是一个包含输入，输出与计算功能的模型。

输入——神经元的树突
输出——神经元的轴突
计算——细胞核

下图是一个典型的神经元模型：包含有3个输入，1个输出，以及2个计算功能（其实可以合并成1个计算，对应1个细胞核）：

在这里插入图片描述
注意中间的箭头线。这些线称为“连接”。每个上有一个“权值”（weight）(其实就是机器学习中的参数 $\theta$ )。一个神经网络的训练算法就是让权重的值调整到最佳，以使得整个网络的预测效果最好。

如果我们将神经元图中的所有变量用符号表示，并且写出输出的计算公式的话，就是下图：
在这里插入图片描述
可见 $z$ 是在输入和权值的线性加权和叠加了一个函数 $g$ 的值。
（在MP模型里，函数 $g$ 是 $s g n$ 函数，也就是取符号函数。这个函数当输入大于0时，输出1，否则输出0。）

下面对神经元模型进行一些扩展：

将 $s u m$ 函数与 $s g n$ 函数合并到一个圆圈里，代表神经元的内部计算，即 $f$
一个神经元可以引出多个代表输出 $z$ 的有向箭头，但值都是一样的

神经元可以看作一个计算与存储单元。计算是神经元对其的输入进行计算功能。存储是神经元会暂存计算结果，并传递到下一层。

2. 神经网络模型

（Neural network model）

当我们用“神经元”组成网络以后，描述网络中的某个“神经元”时，我们更多地会用“单元”（unit）或者“激活单元”（activation unit）来指代。同时由于神经网络的表现形式是一个有向图，有时也会用“节点”（node）来表达同样的意思。

神经网络模型是许多单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。下图为一个3层的神经网络：

第一层称为 输入层（Input Layer）
中间一层称为 隐藏层（Hidden Layers）
最后一层称为 输出层（Output Layer）

在神经网络的每个层次中，除了输出层以外，都会含有这样一个 偏置单元（bias unit），它本质上是一个只含有存储功能，且存储值永远为1的单元。偏置单元没有输入（前一层中没有箭头指向它），且与后一层的所有节点都有连接，有些神经网络的结构图中会把偏置节点明显画出来，有些不会。

下面引入一些标记法来帮助描述模型：

项目	解释	举例
$a_i^{(l)}$	第 $l$ 层的第 $i$ 个激活单元	$a_3^{(2)}$ 代表第 $2$ 层的第 $3$ 个激活单元
$\theta^{(l)}$	从第 $l$ 层映射到第 $l + 1$ 层时的权重的矩阵	$\theta^{(1)}$ 代表从第一层映射到第二层的权重的矩阵
$\theta_{ji}^{(l)}$	第 $l$ 层的第 $i$ 个神经元与第 $l + 1$ 层的第 $j$ 个神经元连接的权值	$\theta_{13}^{(1)}$ 代表第一层的第3个神经元 $x_3$ 与第二层的第1个神经元 $a_1^{(2)}$ 连接的权值

权重矩阵的尺寸：以第 $l + 1$ 层的激活单元数量为行数，以第 $l$ 层的激活单元数（不算偏置单元）加 1 为列数的矩阵。例如：上图所示的神经网络中 $\theta^{(1)}$ 的尺寸为 3行*4列。

对于上图所示的模型，第二层的激活单元和第三层的输出分别表达为：
$a_1^{(2)}=g( \theta_{10}^{(1)} x_0+ \theta_{11}^{(1)} x_1+\theta_{12}^{(1)} x_2+\theta_{13}^{(1)} x_3)$ $a_2^{(2)}=g( \theta_{20}^{(1)} x_0+ \theta_{21}^{(1)} x_1+\theta_{22}^{(1)} x_2+\theta_{23}^{(1)} x_3)$ $a_3^{(2)}=g( \theta_{30}^{(1)} x_0+ \theta_{31}^{(1)} x_1+\theta_{32}^{(1)} x_2+\theta_{33}^{(1)} x_3)$ $h_\theta(x)=a_1^{(3)}=a^{(3)}=g( \theta_{10}^{(2)} a_0^{(2)}+ \theta_{11}^{(2)}a_1^{(2)}+\theta_{12}^{(2)} a_2^{(2)}+\theta_{13}^{(2)} a_3^{(2)})$ 模型中的每一个 $a$ 都是由上一层所有的 $x$ 及其对应的权值所决定的，因此也把这种“输入层→隐藏层→输出层”计算顺序称为 前向传播（Forward Propagation）

2.1 模型向量化

参考:逻辑回归和神经网络之间有什么关系？

为了使上述模型计算更为简便，可以将其向量化。

以上述模型计算第二层激活单元，原式为：
$a_1^{(2)}=g( \theta_{10}^{(1)} x_0+ \theta_{11}^{(1)} x_1+\theta_{12}^{(1)} x_2+\theta_{13}^{(1)} x_3)$ $a_2^{(2)}=g( \theta_{20}^{(1)} x_0+ \theta_{21}^{(1)} x_1+\theta_{22}^{(1)} x_2+\theta_{23}^{(1)} x_3)$ $a_3^{(2)}=g( \theta_{30}^{(1)} x_0+ \theta_{31}^{(1)} x_1+\theta_{32}^{(1)} x_2+\theta_{33}^{(1)} x_3)$ 令：
输入向量 $X=\begin{bmatrix} x_0 \\ x_1 \\ x_2 \\x_3 \end{bmatrix}$ ，第二层的激活单元向量 $a^{(2)}=\begin{bmatrix} a_1^{(2)} \\ \\ a_2^{(2)} \\ \\ a_3^{(2)} \end{bmatrix}$ ，第一层映射到第二层的权重矩阵为 $\theta^{(1)}$

则：
$\begin{aligned} a^{(2)}=\begin{bmatrix} a_1^{(2)} \\ \\ a_2^{(2)} \\ \\ a_3^{(2)} \end{bmatrix} &=g\begin{pmatrix} \begin{bmatrix}\theta_{10}^{(1)} x_0& \theta_{11}^{(1)} x_1&\theta_{12}^{(1)} x_2&\theta_{13}^{(1)} x_3\\ \\ \theta_{20}^{(1)}x_0&\theta_{21}^{(1)} x_1&\theta_{22}^{(1)} x_2 &\theta_{23}^{(1)}x_3\\\\ \theta_{30}^{(1)}x_0& \theta_{31}^{(1)} x_1&\theta_{32}^{(1)} x_2 &\theta_{33}^{(1)}x_3 \end{bmatrix}\end{pmatrix}\\\\ &=g \begin{pmatrix} \begin{bmatrix} \theta_{10}^{(1)}& \theta_{11}^{(1)} &\theta_{12}^{(1)} &\theta_{13}^{(1)} \\ \\ \theta_{20}^{(1)}& \theta_{21}^{(1)} &\theta_{22}^{(1)} &\theta_{23}^{(1)} \\ \\ \theta_{30}^{(1)}& \theta_{31}^{(1)} &\theta_{32}^{(1)} &\theta_{33}^{(1)} \end{bmatrix} * \begin{bmatrix} x_0 \\ x_1 \\ x_2 \\x_3 \end{bmatrix} \end{pmatrix} =g(\theta^{(1)}X) \end{aligned}$ 即得到： $a^{(2)}=g(\theta^{(1)}X)$
同理，对于输出：
$\begin{aligned} h_\theta(x)=a^{(3)} &=g( \theta_{10}^{(2)} a_0^{(2)}+ \theta_{11}^{(2)}a_1^{(2)}+\theta_{12}^{(2)} a_2^{(2)}+\theta_{13}^{(2)} a_3^{(2)})\\\\ &=g \begin{pmatrix} \begin{bmatrix} \theta_{10}^{(2)}& \theta_{11}^{(2} &\theta_{12}^{(2)} &\theta_{13}^{(2)} \end{bmatrix}* \begin{bmatrix}a_0^{(2)}\\\\ a_1^{(2)} \\ \\ a_2^{(2)} \\ \\ a_3^{(2)} \end{bmatrix} \end{pmatrix}=g(\theta^{(2)}a^{(2)}) \end{aligned}$ 因此可以得出上述神经网络模型的向量化表示： $\begin{aligned}a^{(2)}&=g(\theta^{(1)}X) \\ h_\theta(x)=a^{(3)}&=g(\theta^{(2)}a^{(2)}) \end{aligned}$ 此时我们再回过头来看逻辑回归的假设函数： $h_θ(x)=g(\theta^TX)$ 可以发现神经网络是将逻辑回归中的输入向量 $X$ 变成了中间层的向量 $a^{(2)}$ ，如下图：在这里插入图片描述
我们可以把 $a^{(2)}$ 看成比输入 $X$ 更高级、更复杂的特征，它是由 $X$ 与 $\theta^{(1)}$ 决定的，这些更高级的特征比原始输入能更好地预测新数据，就也神经网络相比于逻辑回归和线性回归的优势。

如下图所示，我们可以再进一步简化模型：
在这里插入图片描述

第一层： $a^{(1)}=x$
- 传输： $z^{(2)}=\theta^{(1)}a^{(1)}$
第二层： $a^{(2)}=g(z^{(2)})$
- 传输： $z^{(3)}=\theta^{(2)}a^{(2)}$
第三层： $a^{(3)}=g(z^{(3)})$
…

2.2 多类分类（多个输出）

（Multiclass Classification）

如果我们要训练一个神经网络算法来识别路人、汽车、摩托车和卡车，在输出层我们应该有4个值。例如，第一个值为1或0用于预测是否是行人，第二个值用于判断是否为汽车。

下面是该神经网络的可能结构示例：

在这里插入图片描述
该神经网络算法的输出结果为四种可能情形之一：

2.3 神经网络的代价函数

（Cost Function of Neural Networks）

假设神经网络有 $m$ 个训练样本，每个训练样本包含一组输入 $x$ 和一组输出信号 $y$

建立如下标记：

$L$ ：神经网络的总层数
$s_l$ ：第 $l$ 层的神经元个数

将神经网络的分类定义为两种情况：

二类分类： $S_L=1，y=0or1$
多类分类（K类分类）： $S_L=L，y_i=1$ 表示分到第 $i$ 类（ $k\geq3$ ）

如下图所示：在这里插入图片描述
回顾逻辑回归问题中的代价函数（带正则项）为：
$J(\theta)=-\frac{1}{m} \left [ \sum_{i=1}^{m} y^{(i)}\log{h_θ( x^{(i)})}+(1-y^{(i)})\log{(1-h_θ( x^{(i)}))}\right ] +\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_j^2$ 逻辑回归只有一个输出变量，又称标量（scalar），但是在神经网络中可以有很多输出变量，其假设函数 $h_\theta(x)$ 和训练集的输出 $y$ 都是一个维度为 $K$ 的向量，因此其代价函数会比逻辑回归更加复杂一些，为：
$J(\theta)=-\frac{1}{m} \left [ \sum_{i=1}^{m}\sum_{k=1}^{K} y_k^{(i)}\log{(h_θ( x^{(i)}))_k}+(1-y_k^{(i)})\log{(1-(h_θ( x^{(i)}))_k)}\right ] +\frac{\lambda}{2m} \sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} (\theta_{ji}^{(l)})^2$ 其中 $h_\theta(x)∈R^K$ ， $y∈R^K$

$(h_\theta(x^{(i)}))_k$ 表示第 $i$ 个训练实例的第 $k$ 个假设
$y_k^{(i)}$ 表示第 $i$ 个训练实例的第 $k$ 个实际输出

正则化项 $\displaystyle\sum_{l=1}^{L-1} \displaystyle\sum_{i=1}^{s_l} \displaystyle\sum_{j=1}^{s_{l+1}} (\theta_{ji}^{(l)})^2$ 是每一层排除 $\theta_0$ 后的所有权值 $\theta$ 的平方和
以上图的四层神经网络为例， $L = 4$ ，故 $\displaystyle\sum_{l=1}^{L-1} \displaystyle\sum_{i=1}^{s_l} \displaystyle\sum_{j=1}^{s_{l+1}} (\theta_{ji}^{(l)})^2= \displaystyle\sum_{l=1}^{3} \displaystyle\sum_{i=1}^{s_l} \displaystyle\sum_{j=1}^{s_{l+1}} (\theta_{ji}^{(l)})^2$

当 $l = 1, i = 1$ 时， $s_{l+1}=5$ ，计算最里面的循环：
$\displaystyle\sum_{j=1}^{s_{l+1}} (\theta_{ji}^{(l)})^2=\displaystyle\sum_{j=1}^{5} (\theta_{j1}^{(l)})^2= (\theta_{11}^{(1)})^2+(\theta_{21}^{(1)})^2+(\theta_{31}^{(1)})^2+(\theta_{41}^{(1)})^2$ 表示第一层的第1个神经元到第二层的5个神经元连接的权值 $\theta$ 的平方和