【吴恩达机器学习笔记】4神经网络

最新推荐文章于 2022-11-16 14:30:28 发布

贪钱算法还我头发

最新推荐文章于 2022-11-16 14:30:28 发布

阅读量125

点赞数

分类专栏： AI # Machine Learning 文章标签：机器学习神经网络算法

本文链接：https://blog.csdn.net/keiven_/article/details/112188037

版权

AI 同时被 2 个专栏收录

63 篇文章 6 订阅

订阅专栏

Machine Learning

12 篇文章 1 订阅

订阅专栏

8 神经网络：表述(Neural Networks: Representation)

8.1 非线性假设（Non-linear hypothe）

线性回归和逻辑回归算法当特征太多时，计算的负荷会非常大。这时需要神经网络。

8.2 神经元和大脑（Neurons and brain）

神经网络是一种很古老的算法，它最初产生的目的是制造能模拟大脑的机器。神经网络逐渐兴起于二十世纪八九十年代，应用得非常广泛。但由于各种原因，在90年代的后期应用减少了。但是最近，神经网络又东山再起了。其中一个原因是：神经网络是计算量有些偏大的算法。由于近些年计算机的运行速度变快，才足以真正运行起大规模的神经网络。
在这里插入图片描述

8.3 模型表示1（Model representation I）

大脑中的神经网络的每一个神经元都可以被认为是一个处理单元/神经核（processing unit/Nucleus），它含有许多输入/树突（input/Dendrite），并且有一个输出/轴突（output/Axon）。神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。

神经网络模型建立在很多神经元之上，每一个神经元又是一个个学习模型。这些神经元（也叫激活单元，activation unit）采纳一些特征作为输出，并根据本身的模型提供一个输出。在神经网络中，参数又可被称为权重（weight）。

其中 $x_1$ , $x_2$ , $x_3$ 是输入单元（input units），将原始数据输入给它们。
$a_1$ , $a_2$ , $a_3$ 是中间单元，负责将数据进行处理，然后呈递到下一层。
最后是输出单元，负责计算 ${h_\theta}\left( x \right)$ 。

神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。一个3层的神经网络第一层为输入层（Input Layer），最后一层为输出层（Output Layer），中间一层为隐藏层（Hidden Layers）。为每一层都增加一个偏差单位（bias unit）：

$a_{i}^{\left( j \right)}$ 代表第 $j$ 层的第 $i$ 个激活单元。
${{\theta }^{\left( j \right)}}$ 代表从第 $j$ 层映射到第 $j + 1$ 层时的权重的矩阵。其尺寸为：以第 $j + 1$ 层的激活单元数量为行数，以第 $j$ 层的激活单元数加一为列数的矩阵。

每一个 $a$ 都是由上一层所有的 $x$ 和每一个 $x$ 所对应的决定的。从左到右的算法称为前向传播算法( FORWARD PROPAGATION )

把 $x$ , $\theta$ , $a$ 分别用矩阵表示，可以得到 $\theta \cdot X=a$ 。
在这里插入图片描述

8.4 模型表示2（Model representation II）

相对于使用循环来编码，利用向量化的方法会使得计算更为简便。对整个训练集进行计算，需要将训练集特征矩阵进行转置，使得同一个实例的特征都在同一列里。即：

${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}}\times {{X}^{T}}$

${{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}})$

神经网络就像是logistic regression，只不过把logistic regression中的输入向量 $\left[ x_1\sim {x_3} \right]$ 变成了中间层的 $\left[ a_1^{(2)}\sim a_3^{(2)} \right]$ , 即:

$h_\theta(x)=g\left( \Theta_0^{\left( 2 \right)}a_0^{\left( 2 \right)}+\Theta_1^{\left( 2 \right)}a_1^{\left( 2 \right)}+\Theta_{2}^{\left( 2 \right)}a_{2}^{\left( 2 \right)}+\Theta_{3}^{\left( 2 \right)}a_{3}^{\left( 2 \right)} \right)$

可以把 $a_0, a_1, a_2, a_3$ 看成更为高级的特征值，也就是 $x_0, x_1, x_2, x_3$ 的进化体，并且它们是由 $x$ 与 $\theta$ 决定的，因为是梯度下降的，所以 $a$ 是变化的，并且变得越来越厉害，所以这些更高级的特征值远比仅仅将 $x$ 次方厉害，也能更好的预测新数据。这就是神经网络相比于逻辑回归和线性回归的优势。

8.5 例子和直观理解1（Examples and intuitions I）

从本质上讲，神经网络能够通过学习得出其自身的一系列特征。神经网络中，原始特征只是输入层，输出层做出的预测利用的是上一层的特征，而非输入层中的原始特征，可以认为隐藏层中的特征是神经网络通过学习后自己得出的一系列用于预测输出变量的新特征。

神经网络中，单层神经元（无中间层）的计算可用来表示逻辑运算，比如逻辑与(AND)、逻辑或(OR)。
在这里插入图片描述

8.6 例子和直观理解II（Examples and Intuitions II）

二元逻辑运算符（BINARY LOGICAL OPERATORS）当输入特征为布尔值（0或1）时，可以用一个单一的激活层可以作为二元逻辑运算符，为了表示不同的运算符，我们只需要选择不同的权重即可。可以利用神经元来组合成更为复杂的神经网络以实现更复杂的运算。

例如XNOR 功能（输入的两个值必须一样，均为1或均为0），即 $\text{XNOR}=( \text{x}_1\, \text{AND}\, \text{x}_2 )\, \text{OR} \left( \left( \text{NOT}\, \text{x}_1 \right) \text{AND} \left( \text{NOT}\, \text{x}_2 \right) \right)$
在这里插入图片描述

8.7 多元分类（Multi-class classification）

在这里插入图片描述

贪钱算法还我头发

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【吴恩达机器学习笔记】4神经网络

8 神经网络：表述(Neural Networks: Representation)8.1 非线性假设（Non-linear hypothe）线性回归和逻辑回归算法当特征太多时，计算的负荷会非常大。这时需要神经网络。8.2 神经元和大脑（Neurons and brain）神经网络是一种很古老的算法，它最初产生的目的是制造能模拟大脑的机器。神经网络逐渐兴起于二十世纪八九十年代，应用得非常广泛。但由于各种原因，在90年代的后期应用减少了。但是最近，神经网络又东山再起了。其中一个原因是：神经网络是计算量
复制链接

扫一扫