神经网络（Neural Networks）

最新推荐文章于 2022-12-28 19:54:15 发布

岁寒良木

最新推荐文章于 2022-12-28 19:54:15 发布

阅读量570

点赞数

分类专栏：机器学习文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/qq_38342468/article/details/119680891

版权

机器学习专栏收录该内容

15 篇文章 2 订阅

订阅专栏

神经网络：表述

1 非线性假设

我们之前学的，无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大。

在这里插入图片描述
比如上面这个例子

当我们使用 $x_1$ , $x_2$ 的多次项式进行预测时，我们可以应用的很好。之前我们已经看到过，使用非线性的多项式项，能够帮助我们建立更好的分类模型。

假设我们有非常多的特征，例如大于100个变量，我们希望用这100个特征来构建一个非线性的多项式模型，结果将是数量非常惊人的特征组合，即便我们只采用两两特征的组合 $x_1x_2+x_1x_3+x_1x_4+...+x_2x_3+x_2x_4+...++x_{99}x_{100})$ ，我们也会有接近5000个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了。

普通的逻辑回归模型，不能有效地处理这么多的特征，这时候我们需要神经网络。

神经网络逐渐兴起于二十世纪八九十年代，应用得非常广泛。但由于各种原因，在90年代的后期应用减少了。但是最近，神经网络又东山再起了。其中一个原因是：神经网络是计算量有些偏大的算法。然而大概由于近些年计算机的运行速度变快，才足以真正运行起大规模的神经网络。

2 模型表示

人们设计出了类似于神经元的神经网络，效果如下：
在这里插入图片描述
其中 $x_1$ , $x_2$ , $x_3$ 是输入单元（input units），我们将原始数据输入给它们。 $a_1$ , $a_2$ , $a_3$ 是中间单元，它们负责将数据进行处理，然后呈递到下一层。最后是输出单元，它负责计算 $h_\theta(x)$ 。

神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。下图为一个3层的神经网络，第一层成为输入层（Input Layer），最后一层称为输出层（Output Layer），中间一层成为隐藏层（Hidden Layers）。我们为每一层都增加一个偏差单位（bias unit）：

在这里插入图片描述
下面引入一些标记法来帮助描述模型： $a_i^{(j)}$ 代表第 $j$ 层的第 $i$ 个激活单元。 $\theta^{(j)}$ 代表从第 $j$ 层映射到第 $j + 1$ 层时的权重的矩阵，例如 $\theta^{(1)}$ 代表从第一层映射到第二层的权重的矩阵。其尺寸为：以第 $j + 1$ 层的激活单元数量为行数，以第 $j$ 层的激活单元数加一为列数的矩阵。 例如：上图所示的神经网络中 $\theta^{(1)}$ 的尺寸为 3*4。

对于上图所示的模型，激活单元和输出分别表达为：

在这里插入图片描述
上面进行的讨论中只是将特征矩阵中的一行（一个训练实例）喂给了神经网络，我们需要将整个训练集都喂给我们的神经网络算法来学习模型。

我们把这样从左到右的算法称为前向传播算法( FORWARD PROPAGATION )

3 直观理解

神经网络中，单层神经元（无中间层）的计算可用来表示逻辑运算，比如逻辑与(AND)、逻辑或(OR)。

举例说明：表示逻辑与(AND)运算；

下图中左半部分是神经网络的设计与output层表达式，右边上部分是sigmod函数，下半部分是真值表。

我们可以用这样的一个神经网络表示AND 函数：
在这里插入图片描述
其中 $\theta_0=-30,\theta_1=20,\theta_2=20$ 我们的输出函数 $h_\theta(x)$ 即为： $h_{\Theta}(x)=g\left(-30+20 x_{1}+20 x_{2}\right)$

$g (x)$ 的图像是：

在这里插入图片描述
通过运算，可以得到下表：

从而实现了逻辑与运算。

4 多分类

如果我们要训练一个神经网络算法来识别路人、汽车、摩托车和卡车，在输出层我们应该有4个值。例如，第一个值为1或0用于预测是否是行人，第二个值用于判断是否为汽车。

输入向量 $x$ 有三个维度，两个中间层，输出层4个神经元分别用来表示4类，也就是每一个数据在输出层都会出现 $a,b,c,d]^T$ ，且 $a, b, c, d$ 中仅有一个为1，表示当前类。下面是该神经网络的可能结构示例：

在这里插入图片描述
神经网络算法的输出结果为四种可能情形之一：

$\left[\begin{array}{l}1 \\0 \\0 \\0\end{array}\right],\left[\begin{array}{l}0 \\1 \\0 \\0\end{array}\right],\left[\begin{array}{l}0 \\0 \\1 \\0\end{array}\right],\left[\begin{array}{l}0 \\0 \\0 \\1\end{array}\right]$