吴恩达机器学习个人笔记(三)-关于神经网络

最新推荐文章于 2022-09-02 11:48:48 发布

「已注销」

最新推荐文章于 2022-09-02 11:48:48 发布

阅读量268

点赞数 1

分类专栏：机器学习笔记

本文链接：https://blog.csdn.net/Huang_cainiao/article/details/82935985

版权

机器学习笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1非线性假设(Non-linear Hypotheses)

之前学习的线性回归和逻辑回归都是线性的模型，并且它的的特征都不会太多，这也是它们的缺点,就是如果训练集的特征太多的话，那么计算效率就不好。如下面的例子

如果我们使用逻辑回归进行分类的话，假设有非常多的特征。例如大于100个变量，希望用这些特征构建一个非线性的多项式模型，那么可能出现非常多的特征组合(比如 $x_{1}x_{2}x_{3}^{3}\cdots x_{58}\cdots$ 这种怪异的组合)，假如只采用两两特征组合( $x_{1}x_{2}+x_{1}x_{3}+x_{1}x_{4}\cdots +x_{2}x_{3}+x_{2}x_{4}+\cdots +x_{99}x_{100}$ )也会有很多的特征组合，这种计算对于逻辑回归来讲显然有些吃力。

2模型表示(Model Representation )

神经网络建立在神经元的基础上，神经元类似于人的大脑中的神经元。它从别处神经元或者其他部位接受信息，并进行处理然后传递给下一个神经元。机器学习的神经网络也类似这样，接受输入，根据自己的模型处理数据，然后将处理结果输入给下一个神经元。单个逻辑回归的神经元的模型如下所示

这些神经元（也叫激活单元，activation unit）用一些特征作为输入，并提供一个输出。也可用向量化表示 $x=\begin{bmatrix} x_{0}\\ x_{1}\\ x_{2}\\ x_{3}\end{bmatrix}$ , $\theta =\begin{bmatrix} \theta_{0}\\ \theta_{1}\\ \theta_{2}\\ \theta_{3}\end{bmatrix}$ ， $x_{0}$ 在单个神经元中为表示出来，我们像之前一样假设 $x_{0}=1$ ,并称之为偏差单位（bias unit），在神经网络中，参数 $\theta$ 又被称为权重(weight)。神经网络的结构如下

其中 $x_{1},x_{2},x_{3}$ 是输入单元（input units）,这些代表着原始数据。 $a_{1},a_{2},a_{3}$ 是中间单元，它们会像之前所说，将数据进行处理，然后呈递到下一层，最后输出单元（out units）它负责计算 $h_{\theta }(x)$ 。下图为三层的神经网络

第一层成为输入层（Input Layer），最后一层称为输出层（Output Layer），中间一层成为隐藏层（Hidden Layers）。我们为每一层都增加一个偏差单位（bias unit）。为了更好的描述模型引入一些标记: $a_{i}^{(j)}$ 表示第 $j$ 层的第 $i$ 个激活单元。 $\theta ^{(j)}$ 表示从 $j$ 层映射到第 $j+1$ 层时的权重的矩阵，其大小为：行数为第 $j+1$ 层的激励单元的个数，列数为第 $j$ 层的激励单元的个数加1

比如上图中的 $\theta ^{(1)}$ 为第1层到第2层的矩阵，它的大小为： $3\times 4$ 。对于上图所示的模型，激活单元和输出分别表示为

$a_{1}^{(2)}=g(\Theta _{10}^{(1)}x_{0}+\Theta _{11}^{(1)}x_{1}+\Theta _{12}^{(1)}x_{2}+\Theta _{13}^{(1)}x_{3})$

$a_{2}^{(2)}=g(\Theta _{20}^{(1)}x_{0}+\Theta _{21}^{(1)}x_{1}+\Theta _{22}^{(1)}x_{2}+\Theta _{23}^{(1)}x_{3})$

$a_{3}^{(2)}=g(\Theta _{30}^{(1)}x_{0}+\Theta _{31}^{(1)}x_{1}+\Theta _{32}^{(1)}x_{2}+\Theta _{33}^{(1)}x_{3})$

$h_{\theta }(x)=g(\Theta _{10}^{(2)}a_{0}+\Theta _{11}^{(2)}a_{1}+\Theta _{12}^{(2)}a_{2}+\Theta _{13}^{(2)}a_{3})$

每一个 $a$ 都是有上一层的 $x$ 和其对于的矩阵的权值所决定的。我们把这样从左到右的算法称为前向传播算法( FORWARD PROPAGATION )。把 $x,\theta ,a$ 分别用矩阵表示：

3向量化表示

在机器学习过程的计算中，相比较于循环，使用向量化的方法会使得计算更加的便捷。这是一种很重要的思想,希望自己以后也锻炼出这种思维。以上面的神经网络为例子，试着计算第二层的值:

如上图所示，我们都用向量进行表示，令 $z^{(2)}=\theta^{(1)}x$ ,则 $a^{(2)}=g(z^{(2)})$ ，计算后添加 $a_{0}^{(2)}=1$ 。则它们的计算如下所示

令 $z^{(3)}=\theta ^{(2)}a^{(2)}$ ,则 $h_{\theta}(x)=a^{3}=g(z^{(3)})$ 。更直观的理解，我们把左半部分遮住，如下所示

我们可以把 $a_{0},a_{1},a_{2},a_{3}$ 看成更高级的特征值，但是它们都是由 $x$ 和 $\theta$ 决定的。因为是梯度下降的，所以 $a$ 是变化的，而且会变得越来越厉害，所以这些更高级的特征值远比上一层的输入更为厉害，也能更好的预测新数据。这就是神经网络相比较于逻辑回归和线性回归的优势。

4 特征和直观理解

从本质上来讲，神经网络可以学习自身的一系列特征。在普通的逻辑回归中，我们只能使用数据中的原始特征 $x_{1},x_{2},\cdots ,x_{n}$ ,虽然可以使用一些多项式来组合这些特征，但是依然受这些原始特征的限制。而在神经网络中，这些原始特征只是输入层，在最后输出层的输入数据是上一层的特征，而不是这些原始特征。

举例说明，在神经网络中，单个神经元可以用来表示逻辑运算，比如逻辑与(AND),或者逻辑或(OR)，如下所示，可以用这样一个神经网络表示AND函数：

其中 $\theta _{0}=-30,\theta _{1}=20,\theta _{2}=20$ ,那么输出函数 $h_{\theta }(x)$ 即为: $h_{\theta }(x)=g(-30+20x_{1}+20x_{2})$ , $g(x)$ 为sigmoid函数，如下

所以既有: $h_{\theta }(x)\approx x_{1}ANDx_{2}$ 。下面是OR函数示意图，原理是一样的

我们可以用神经网络依靠这些单个神经元的运算做更为复杂的逻辑运算，比如使用AND,OR,NOT结合起来做XNOR运算(输入的两个值必须一样,均为1或者为0)。AND,OR,都如上所示，NOT函数如下所示,，权值分别为-10和20

则XNOR的神经网络如下所示

5多类分类

举例说明，我们要训练一个神经网络用来识别路人，汽车，摩托车和卡车，在输出层我们应该有4个值。神经网络的结构如下所示

输入向量有三个维度，两个中间层，输出层4个神经单元表示4类。即每一个数据在输出层都会出现 $[a,b,c,d]^{T}$ ，且 $a,b,c,d$ 中有且仅有一个为1.表示当前类。如下所示

「已注销」

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习个人笔记(三)-关于神经网络

1非线性假设(Non-linear Hypotheses) 之前学习的线性回归和逻辑回归都是线性的模型，并且它的的特征都不会太多，这也是它们的缺点,就是如果训练集的特征太多的话，那么计算效率就不好。如下面的例子如果我们使用逻辑回归进行分类的话，假设有非常多的特征。例如大于100个变量，希望用这些特征构建一个非线性的多项式模型，那么...
复制链接

扫一扫