机器学习笔记06：神经网络的表示(Neural Networks-Representation)

最新推荐文章于 2022-03-27 17:12:53 发布

imxietx

最新推荐文章于 2022-03-27 17:12:53 发布

阅读量5.8k

点赞数 3

分类专栏： Machine Learning Coursera 斯坦福大学机器学习笔记文章标签：神经网络机器学习 neural networks 多类分类问题

本文链接：https://blog.csdn.net/artprog/article/details/51338989

版权

Machine Learning 同时被 2 个专栏收录

25 篇文章 8 订阅

订阅专栏

Coursera 斯坦福大学机器学习笔记

15 篇文章 44 订阅

订阅专栏

神经网络(Neural Networks)其实是一个很古老的想法，在提出来之后，沉寂了很长一段时间。而现在，神经网络是许多机器学习问题的首选算法。

文章内的所有图片均属于Stanford机器学习课程，转载请注明出处

一、神经网络的表示(The Representation for Neural Networks)

1、运用神经网络的动机(Motivations)

非线性的假设函数(Non-linear Hypothesis)

之前已经学习了两个机器学习中常用的方法：线性回归和逻辑回归。那为什么还需要神经网络这个东西呢。我们先来举一个监督学习中的分类问题的例子，假设有如下的训练集：

我们的目的是进行分类，假若如图所示的训练集一样，只有两个特征

x1,x2 $x_1, x_2$ ，通过逻辑回归很容易就能得到一个决策边界：
这里写图片描述

然而，当特征非常多的时候，我们必须用足够高次的项来保证假设函数的准确率，例如需要用100个特征来预测房价，且最高次项为6次，在逻辑回归中，假设函数为：

h θ (x) = g (θ T X) = 1 1 + e - θ T X

$\begin{aligned} h_\theta(x) &= g(\theta^{T}X) \\ &= \frac{1}{1+e^{-\theta^{T}X}} \end{aligned}$ 其中

g (θ T X) = g (θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ k x 1 x 2 + θ k + 1 x 1 x 3 + . . . + θ n x 61 + θ n + 1 x 62 + . . .)

$g(\theta^{T}X)=g(\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_k x_1 x_2+\theta_{k+1} x_1 x_3+...+\theta_nx_1^6+\theta_{n+1} x_2^6+...)$ 从上面这个式子可以看出，如果要用 梯度下降或者 Normal Equation方法来得到

θj $\theta_j$ 的值，势必需要巨大的计算量。就算只有100个特征，如果只用最高项为二次项的函数

g(x) $g(x)$ ，也会有

C2100+201 $C_{100}^2+201$ 个

θ $\theta$ 项。所以当遇到特征数很多的情况时，我们需要另外一种方法，也就是 神经网络(Neural Networks)

大脑和神经元(Brain and Neurons)

再来讲讲有关大脑的东西，根据一些神经科学家的研究实验发现，当一个感知器官的与对应的大脑皮层区域的连接被切断时，如果把这个感受器和另一个皮层区域连接起来，那么这个皮层区域将学会感知新的东西。举个例子：

如上图，如果把听觉感受器和听觉皮层区域的连接切断，然后把听觉感受器和视觉皮层区域相连，则视觉皮层区域也能学会处理听到的东西。
再如：
这里写图片描述

如果把触觉感受器和触觉皮层区域的连接切断，然后把触觉感受器和视觉皮层区域相连，则视觉皮层区域也能学会处理触觉。所以人们一直想要模仿人类的大脑来创造真正的AI，但是还处于初级的研究阶段，毕竟我们连大脑的机制都没完全搞清楚。

另外一个例子是用舌头来看东西：

如图，头上戴的是一个图像接收器，类似摄像头，舌头上的一个电极阵列，高电压代表亮点，低电压代表暗点，这样通过舌头就能“看”东西了。

再回到神经网络算法，我们模拟大脑的目的就是让这种算法能够学习各种各样的事物，而不必某个特别的问题来设计一个对应的程序来解决问题。

2、神经网络(Neural Networks)

模型表示(Model Representation)

首先来看看，大脑中神经元的结构：

理科生肯定都学过高中生物，图中左边的蓝色部分上的分杈叫做树突(Dendrite)，它可以连接多个其他的神经元；细胞体中的绿色部分为细胞核；黄色部分为轴突(Axon)；最右边为轴突末梢(Axon terminal)，它可以和其他神经细胞的树突相连接。一个神经细胞可以和另一个神经细胞相连：
这里写图片描述

如上图，一个神经元的轴突末梢能和另一个神经元的树突相连，而且树突可以和多个轴突末梢相连，多个神经元的复杂连接就形成了一个神经网络。当然，以上都属于神经科学的范畴，在机器学习中，最简单的神经网络（只有一个神经元）可以表示如下：
这里写图片描述

其中，左边的

xj,j=1,2,3 $x_j,j=1,2,3$ 表示 输入节点（输入值），右边的

hθ(x) $h_\theta(x)$ 表示输出，中间的橘黄色的节点表示 神经元体(Body of Neuron)，输入节点与神经元体的连接线称为 输入连接线，神经元体和输出的连接线称为 输出连接线。当然也可以将

x0 $x_0$ 画到图中：
这里写图片描述

而在这里

x0 $x_0$ 称为偏置单位(bias unit)。
需要注意的是，函数

hθ(x)=11+e−θTX $h_\theta(x)=\frac{1}{1+e^{-\theta^{T}X}}$ ，

θ $\theta$ ，

X $X$ 均和之前的回归问题中的相同。在神经网络中，我们将假设函数称作为逻辑激活函数(Logistic Activation Function)

然而，一般的神经网络都不是像上面那样那么简单的。一般的神经网络表示如下：

同样可以添加

x0 $x_0$ 和

a(2)0 $a_0^{(2)}$ 到上图中，因为它们始终等于1，所以省略掉了。其中，最左边的 Layer1 称为输入层，最右边的 Layer3 称为输出层，中间的 Layer2 称为隐藏层，至于为什么叫隐藏层，是因为我们在使用训练出的模型时，只会使用输入层和输出层，中间的计算过程对我们来说是隐藏的。另外，模型可有有很多层，除了输入层和输出层外的其他层都成为隐藏层。

下面再来更加数学化地描述这个模型，还是以上面那张图为例，有如下记法：

notation	representation
$a_i^{(j)}$	“activation” of unit $i$ in layer $j$
$\Theta_j$	matrix of weights controlling function mapping from layer $j$ to layer $j+1$

其中，activation 表示层(Layer)中的一个单位(Unit)的激励。 $\Theta_j$ 是一个映射向量。在第一层中加入 $x_0$ ，我们可以将神经网络图中Layer1 和 Layer2 的关系表示如下：

a (2) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3)

$a_1^{(2)}=g(\Theta_{10}^{(1)} x_0+\Theta_{11}^{(1)} x_1+\Theta_{12}^{(1)} x_2+\Theta_{13}^{(1)} x_3)$

a (2) 2 = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3)

$a_2^{(2)}=g(\Theta_{20}^{(1)} x_0+\Theta_{21}^{(1)} x_1+\Theta_{22}^{(1)} x_2+\Theta_{23}^{(1)} x_3)$

a (2) 3 = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3)

$a_3^{(2)}=g(\Theta_{30}^{(1)} x_0+\Theta_{31}^{(1)} x_1+\Theta_{32}^{(1)} x_2+\Theta_{33}^{(1)} x_3)$ 添加

a(2)0 $a_0^{(2)}$ ，可以把 Layer2 和 Lyer3 的关系表示如下：

h Θ (x) = a (3) 1 = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$h_\Theta(x)=a_1^{(3)}=g(\Theta_{10}^{(2)} a_0^{(2)}+\Theta_{11}^{(2)} a_1^{(2)}+\Theta_{12}^{(2)} a_2^{(2)}+\Theta_{13}^{(2)}a_3^{(2)})$ 可以看出：

Θ (1) \in R 3 \times 4, Θ (2) \in R 1 \times 4

$\Theta^{(1)} \in R^{3\times4},\quad \Theta^{(2)} \in R^{1\times4}$ 通常，在网络中，若层

j $j$ 含有

Sj $S_j$ 个单元，层

j+1 $j+1$ 含有

Sj+1 $S_{j+1}$ 个单元，则

Θ(1) $\Theta^{(1)}$ 的维度为

Sj+1×(Sj+1) $S_{j+1}\times (S_j+1)$ 。

前向传播(Forward propagation)

前面提到了层(Layers)之间的关系式，现在来向量化计算过程：

我们令

a(j)i=g(z(j)i) $a_i^{(j)}=g(z_i^{(j)})$ ，例如：

z (2) 1 = Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3

$z_1^{(2)}=\Theta_{10}^{(1)} x_0+\Theta_{11}^{(1)} x_1+\Theta_{12}^{(1)} x_2+\Theta_{13}^{(1)} x_3$ 再令：
这里写图片描述

则

z(2)=Θ(1)x $z^{(2)}=\Theta^{(1)} x$ ，为了统一，我们可以把向量

x $x$ 用

a(1) $a^{(1)}$ 表示，所以

a(2)=g(z(2)) $a^{(2)}=g(z^{(2)})$ ，我们在 Layer2 中加上第零项

a(2)0 $a_0^{(2)}$ ，则

z(3)=Θ(2)a(2) $z^{(3)}=\Theta^{(2)}a^{(2)}$ ，最后

hΘ(x)=a(3)=g(z(3)) $h_\Theta(x)=a^{(3)}=g(z^{(3)})$ 。所以，在整个计算过程中，每一个激励单元

a(j)i $a_i^{(j)}$ 都会由前面的激励单元产生，最后生成最终结果，这个过程叫做 前向传播(Forward propagation)。而在传播的过程中，每一层都是根据上一层的激励产生的新特征。不仅是3层，还可以使用更多层来生成更复杂的假设函数

hΘ(x) $h_\Theta(x)$ ：
这里写图片描述

3、应用(Applications)

例一：实现与或非等逻辑功能

神经网络的应用很广泛，但是对于初学者来说，那就比较复杂了。来举一个二进制分类的例子，训练集如下图：

我们要求

x1 $x_1$ 和

2 $_2$ 的亦或(XOR)，红色的×表示结果为0，蓝色的圈表示结果为1，为了简单起见，把图简化成下面这样：
这里写图片描述

可以看到，当

x1x2=00 $x_1x_2=00$ 和

x1x2=11 $x_1x_2=11$ 时，输出为0，当

x1x2=10 $x_1x_2=10$ 和

x1x2=01 $x_1x_2=01$ 时，输出为

1 $1$ 可以看到上面那条蓝色的线为一条异或决策边界。

1.与(AND)
那如果要实现与(AND)功能的话，我们可以通过神经网络来对输入进行处理以得到想要的结果：

如上图，其中

+1 $+1$ 为偏置单元，

x1,x2∈{0,1} $x_1,x_2\in\{0,1\}$ ，输出

y=x1 $y=x_1$ AND

x2 $x_2$ ，我们令

Θ (1) = ⎡ ⎣ ⎢ ⎢ - 30 2020 ⎤ ⎦ ⎥ ⎥

$\Theta^{(1)}=\left[ \begin{matrix}-30\\20\\20 \end{matrix}\right]$ 则

h Θ (x) = g (- 30 + 20 x 1 + 20 x 2)

$h_\Theta(x) = g(-30+20x_1+20x_2)$ 其中函数

g(z) $g(z)$ 和逻辑回归中一样，其图像如下：
这里写图片描述

下面我们就来列一个真值表：

$x_1$	$x_2$	$h_\Theta(x)$
0	0	$g(-30)\approx0$
0	1	$g(-10)\approx0$
1	0	$g(-10)\approx0$
1	1	$g(10)\approx1$

由此看累，上面就是一个实现与(AND)功能的神经网络。

2.或(OR)
要实现或(OR)功能，我们需要如下的神经网络：

其中

Θ (1) = ⎡ ⎣ ⎢ ⎢ - 10 2020 ⎤ ⎦ ⎥ ⎥

$\Theta^{(1)}=\left[ \begin{matrix}-10\\20\\20 \end{matrix}\right]$ 所以假设函数为

h Θ (x) = g (- 10 + 20 x 1 + 20 x 2)

$h_\Theta(x) = g(-10+20x_1+20x_2)$ 其真值表如下：

$x_1$	$x_2$	$h_\Theta(x)$
0	0	$g(-10)\approx0$
0	1	$g(10)\approx1$
1	0	$g(10)\approx1$
1	1	$g(30)\approx1$

可以看出，上面的神经网络实现了或(OR)功能。

3.非(NOT)

4.实现XNOR(NOT XOR)
我们之前已经得到了与或非三个神经网络，下面左边是与，右边是或，中间为(NOT $x_1$ ) AND (NOT $x_2$ )，即当 $x_1=x_2=0$ 输出才为1：

现在只需要将他们组合起来，如下：
这里写图片描述

我们就可以得到如下真值表：
这里写图片描述

可以看到，最终的

hΘ(x) $h_\Theta(x)$ 输出的即是

x1 $x_1$ 和

x2 $x_2$ 异或之后再取非的结果。所以，我们可以用复杂的多层神经网络来实现复杂的分类等问题。

例二：多类分类

最后是一个计算机视觉的分类问题，我们要使用神经网络来判断一个物体是行人(Pedestrian)、小汽车(Car)、摩托车(Motorcycle)还是卡车(Trunk)：

这个神经网络的输出如图下方，应该为一个四维的列向量。
另外需要注意的是，对于这种多类的分类问题，训练集应该符合下面的要求：
这里写图片描述

不仅

y(i) $y^{(i)}$ 要为四维的向量，输入

x(i) $x^{(i)}$ 也要为四维的向量。

好了，这篇文章大概得描述了一下神经网络是怎么工作的。下一篇文章将会描述神经网络是具体怎么学习的（完成后会放上链接）。

上面就是神经网络的一个大概的介绍，希望能帮助到大家。
如有错误，期望您能纠正，留言或者加入QQ群
——–转载请注明出处——–

imxietx

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
机器学习笔记06：神经网络的表示(Neural Networks-Representation)

神经网络(Neural Networks)其实是一个很古老的想法，但是提出来之后，沉寂了很长一段时间。而现在，神经网络是许多机器学习问题的首选算法。文章内的所有图片均属于Stanford机器学习课程，转载请注明出处一、神经网络的表示(The Representation for Neural Networks)1、运用神经网络的动机(Motivations)非线性的假设
复制链接

扫一扫