Machine Learning Notes PartⅣ

WhiteCooper

于 2018-07-12 18:01:53 发布

阅读量147

点赞数

本文链接：https://blog.csdn.net/WhiteCooper/article/details/81020133

版权

前言：由于本人今年考研结束后才开始接触ML，入门决定从Andrew Ng的ML课程学起。笔记内容主要来自Andrew Ng教授的讲义和学习视频，以及在学习过程中翻阅的资料，顺序大致按照网易云课堂上的目录，大多是自己觉得有意义的或者难懂的内容，然而其中难免掺杂自己的理解，如有错误，敬请大家批评指正。

神经网络：表述(Neural Networks: Representation)

非线性假设（Non-linear Hypotheses）

之前学习的内容里，无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大。
之前我们已经看到过，使用非线性的多项式项，能够帮助我们建立更好的分类模型。假设我们有非常多的特征，例如大于100个变量，我们希望用这100个特征来构建一个非线性的多项式模型，结果将是数量非常惊人的特征组合，即便我们只采用两两特征的组合 $x_1x_2+x_1x_3+...+x_2x_3+x_2x_4+...+x_{99}x_{100}$ ，我们也会有接近5000个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了,它无法有效的处理这么多特征，这时候就需要神经网络。

神经元和大脑（Neurons and the Brain ）

神经网络是一种很古老的算法，它最初产生的目的是制造能模拟大脑的机器，它逐渐兴起于二十世纪八九十年代，应用得非常广泛。但由于各种原因，在90年代的后期应用减少了。但是最近，神经网络又东山再起了。其中一个原因是：神经网络是计算量有些偏大的算法。但是随着由于近些年计算机的运行速度变快，才足以真正运行起大规模的神经网络。

模型表示（Model Representation）

这里写图片描述
如上图所示是类似于神经元的神经网络，其中 $x_1,x_2,x_3$ 是输入单元（input units），将原始数据输入给他们， $a_1,a_2,a_3$ 是中间单元，他们负责将数据进行处理，传递到下一层。最后是输出单元，它负责计算 $h_\theta(x)$ 。

神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。下图为一个3层的神经网络，第一层成为输入层（Input Layer），最后一层称为输出层（Output Layer），中间一层成为隐藏层（Hidden Layers）。我们为每一层都增加一个偏差单位（bias unit）：
这里写图片描述
$a_i^{(j)} 代表第j 层的第 i 个激活单元。θ^{(j)} 代表从第 j 层映射到第j+1 层时的权重的矩阵，例如θ^{(1) }代表从第一层映射到第二层的权重的矩阵。其尺寸为：以第 j+1层的激活单元数量为行数，以第 j 层的激活单元数加一为列数的矩阵。例如：上图所示的神经网络中θ^{(1) }的尺寸为 3*4。$
$a_1^{(2)}=g(Θ_{10}^{(1)} x_0+Θ_{11}^{(1)} x_1+Θ_{12}^{(1)} x_2+Θ_{13}^{(1)} x_3)$
$a_2^{(2)}=g(Θ_{20}^{(1)} x_0+Θ_{21}^{(1)} x_1+Θ_{22}^{(1)} x_2+Θ_{23}^{(1)} x_3)$
$a_3^{(2)}=g(Θ_{30}^{(1)} x_0+Θ_{31}^{(1)} x_1+Θ_{32}^{(1)} x_2+Θ_{33}^{(1)} x_3)$
$h_Θ (x)=g(Θ_{10}^{(2)} a_0^{(2)}+Θ_{11}^{(2)} a_1^{(2)}+Θ_{12}^{(2)} a_2^{(2)}+Θ_{13}^{(2)} a_3^{(2)})$
通过上述可以得出，每一个a都是由上一层所有的x和每一个x所对应的 $\theta$ 决定的(把x, θ, a 分别用矩阵表示，我们可以得到θ⋅X=a )。我们把这样从左到右的算法称为前向传播算法( forward propagation)。

多类分类（Multiclass Classification）

当我们有不止两种分类时（也就是y=1,2,3….），比如以下这种情况，该怎么办？如果我们要训练一个神经网络算法来识别路人、汽车、摩托车和卡车，在输出层我们应该有4个值。例如，第一个值为1或0用于预测是否是行人，第二个值用于判断是否为汽车。
输入向量x有三个维度，两个中间层，输出层4个神经元分别用来表示4类，也就是每一个数据在输出层都会出现 $[a, b, c ,d]^\mathrm T$ ，且a,b,c,d中仅有一个为1，表示当前类。下面是该神经网络的可能结构示例：
这里写图片描述

神经网络算法的输出结果为四种可能情形之一：

WhiteCooper

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning Notes PartⅣ

前言：由于本人今年考研结束后才开始接触ML，入门决定从Andrew Ng的ML课程学起。笔记内容主要来自Andrew Ng教授的讲义和学习视频，以及在学习过程中翻阅的资料，顺序大致按照网易云课堂上的目录，大多是自己觉得有意义的或者难懂的内容，然而其中难免掺杂自己的理解，如有错误，敬请大家批评指正。神经网络：表述(Neural Networks: Representation)非线性...
复制链接

扫一扫