机器学习第九章——神经网络学习

最新推荐文章于 2023-06-14 22:44:59 发布

倚剑笑紅尘

最新推荐文章于 2023-06-14 22:44:59 发布

阅读量494

点赞数

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36782366/article/details/89027974

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

机器学习

29 篇文章 1 订阅

订阅专栏

动机

我们之前学的，无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大

人工神经网络是对具有很多特征的复杂问题进行机器学习的一种方法。

神经网络

人工神经网络是对生物神经网络的一种简化的模拟。那么，我们先从生物中的神经元入手，进而了解神经网络的工作方式。

用一个简单的模型来模拟神经元的工作，我们将神经元模拟成一个逻辑单元：

$x_{1},x_{2},x_{3}$ 可以将其看成输入神经树突，黄色的圆圈则可以看成中心处理器细胞核， $h_\theta(x)$ 则可看成输出神经轴突。因为这里是逻辑单元，所以我们的输出函数为： $h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$ 。一般我们把这称为一个有 s 型函数（逻辑函数）作为激励的人工神经元。

那么神经网络其实就是这些神经元组合在一起的集合。

左边第一层 Layer1 被称为输入层。在输入层我们输入我们的特征项 $x_{1},x_{2},x_{3}$ 。

右边最后一层被称为输出层。输出函数为： $h_\Theta(x)$ 。

中间这层被称为隐藏层。

上面的神经网络可以简单的表示为：

$\begin{bmatrix} x_{0}\\ x_{1}\\ x_{2}\\ x_{3} \end{bmatrix} \rightarrow \begin{bmatrix} a_{1}^{(2)}\\ a_{2}^{(2)}\\ a_{3}^{(2)} \end{bmatrix} \rightarrow h_{\theta}(x)$

左边输入层多增加了一个偏置单元(偏置神经元)， $x_{0}$

用 $\Theta^{(j)}$ 表示特征量前的参数，是一个有权重的矩阵控制着一层参数的大小，映射第j层到第j+1层的权值矩阵。

上述的神经网络可用数学表达，如下：

$\begin{align*} a_{1}^{(2)} &= g(\Theta_{10}^{(1)}x_{0}+\Theta_{11}^{(1)}x_{1}+\Theta_{12}^{(1)}x_{2}+\Theta_{13}^{(1)}x_{3}) \\ a_{2}^{(2)} &= g(\Theta_{20}^{(1)}x_{0}+\Theta_{21}^{(1)}x_{1}+\Theta_{22}^{(1)}x_{2}+\Theta_{23}^{(1)}x_{3}) \\ a_{3}^{(2)} &= g(\Theta_{30}^{(1)}x_{0}+\Theta_{31}^{(1)}x_{1}+\Theta_{32}^{(1)}x_{2}+\Theta_{33}^{(1)}x_{3}) \\ h_{\Theta}(x) &= a_{1}^{(3)} = g(\Theta_{10}^{(2)}a_{0}^{(2)}+\Theta_{11}^{(2)}a_{1}^{(2)}+\Theta_{12}^{(2)}a_{2}^{(2)}+\Theta_{13}^{(2)}a_{3}^{(2)}) \\ \end{align*}$

$\Theta$ 矩阵也被称作为模型的权重。这里的 $g(x)$ 都是 sigmoid 激活函数，即 $g(x) = \frac{1}{1+e^{-x}}$

对上面的神经网络数学表达方式进行向量化推导，令：

$\begin{align*} z_{1}^{(2)} &= \Theta_{10}^{(1)}x_{0}+\Theta_{11}^{(1)}x_{1}+\Theta_{12}^{(1)}x_{2}+\Theta_{13}^{(1)}x_{3} \\ z_{2}^{(2)} &= \Theta_{20}^{(1)}x_{0}+\Theta_{21}^{(1)}x_{1}+\Theta_{22}^{(1)}x_{2}+\Theta_{23}^{(1)}x_{3} \\ z_{3}^{(2)} &= \Theta_{30}^{(1)}x_{0}+\Theta_{31}^{(1)}x_{1}+\Theta_{32}^{(1)}x_{2}+\Theta_{33}^{(1)}x_{3} \\ \vdots \\ z_{k}^{(2)} &= \Theta_{k,0}^{(1)}x_{0}+\Theta_{k,1}^{(1)}x_{1}+\Theta_{k,2}^{(1)}x_{2}+\Theta_{k,3}^{(1)}x_{3} \\ \end{align*}$

于是可以得到：

$\begin{align*} a_{1}^{(2)} &= g(z_{1}^{(2)}) \\ a_{2}^{(2)} &= g(z_{2}^{(2)}) \\ a_{3}^{(2)} &= g(z_{3}^{(2)}) \\ \end{align*}$

用向量即可表示为：

$x = \begin{bmatrix} x_{0}\\ x_{1}\\ x_{2}\\ x_{3} \end{bmatrix},z^{(2)} = \begin{bmatrix} z_{1}^{(2)}\\ z_{2}^{(2)}\\ z_{3}^{(2)}\\ \end{bmatrix} = \Theta^{(1)}x$

统一一下前后两层的输入输出关系，将 $x=a^{(1)}$ ，即可得到：

$\begin{align*} x &= \begin{bmatrix} x_{0}\\ x_{1}\\ \vdots \\ x_{n} \end{bmatrix},z^{(j)} = \begin{bmatrix} z_{1}^{(j)}\\ z_{2}^{(j)}\\ \vdots \\ z_{3}^{(j)}\\ \end{bmatrix}, \\ \Rightarrow z^{(j)} &=\Theta^{(j-1)}a^{(j-1)}\\ \end{align*}$

这里也可以得到一个结论：

假如一个网络里面在第 j 层有 $s_j$ 个单元，在第 j+1 层有 $s_{j+1}$ 个单元，那么 $\Theta^{(j)}$ 则控制着第 j 层到第 j+1 层的映射矩阵，矩阵的维度是： $s_{j+1} * (s_j + 1)$ 。(例如： j=1 , $s_j=1$ ， $s_{j+1}$ =1 ，也就是说第一层只有一个单元，第二层也只有一个单元，那么 $\Theta^{(1)}$ 矩阵维度就是 1 * 2 ,因为要算上偏置单元)

因为我们通常有 $a_0^{(j)}=1$ ，所以：

$\begin{align*} a^{(j)}&=g(z^{(j)})\\ z^{(j+1)}&=\Theta^{(j)}a^{(j)}\\ h_\Theta(x)&=a^{(j+1)}=g(z^{(j+1)})\\ \end{align*}$

由这个关系其实可以看出，神经网络跟之前所学的逻辑回归根本区别在于，它是将上一层的输出当做下一层的输入，这个从输入层到隐藏层再到输出层一次计算激励的过程叫做 forward propagation（前向传播）。

其实神经网络就像是逻辑回归，只不过我们把逻辑回归中的输入向量[x1 ∼ x 3 ] 变成了中间层的, 即:

我们可以把a0,a1,a2,a3 看成更为高级的特征值，也就是x0 ,x1 ,x2 ,x3 的进化体，并且它们是由x与决定的，因为是梯度下降的，所以a是变化的，并且变得越来越厉害，所以这些更高级的特征值远比仅仅将x次方厉害，也能更好的预测新数据

这就是神经网络相比于逻辑回归和线性回归的优势。

特征和直观理解

1. 逻辑运算

利用神经网络进行逻辑与运算

利用神经网络进行逻辑非运算

但是单一一层无法完成异或运算。

异或在几何上的问题其实是将红叉和蓝圈分开，但是我们的输出函数是： $h_\Theta(x)=g(\Theta_{10}^{(1)}x_0+\Theta_{11}^{(1)}x_1+\Theta_{12}^{(1)}x_2)$ ,这是线性的，那么在图上无论怎么画一条直线，也没有办法将两个不同的训练集分开。既然一条直线不行，那么神经网络增加一层。