ML学习笔记第四周（二）：神经网络-CSDN博客

本文链接：https://blog.csdn.net/qq_33296651/article/details/87476274

1 模型表达I

1.1 大脑中的神经元

神经元是一个计算单元，它从输入神经（Dendrite/树突）接受一定数目的信息，并做一些计算，然后将结果通过它的轴突（Axon）传送到其他节点或者大脑中的其他神经元
在这里插入图片描述
如果神经元想要传递一个消息，它就会就通过它的轴突发送一段微弱电流给其他神经元。接下来这个神经元接收这条消息，做一些计算，它有可能会反过来将自己的消息传给其他神经元，这就是所有人类思考的模型：我们的神经元把自己的收到的消息进行计算，并向其他神经元传递消息。顺便说一下，这也是我们的感觉和肌肉运转的原理。
在这里插入图片描述

1.2 神经模型：逻辑单元

人工神经网络中，我们将神经元模拟成一个逻辑单元， $x_0、x_1、x_2、x_3$ 称为输入节点（其中 $x_0=1$ 称为偏置单元，是否画出会取决于其对例子是否有利）， $x$ 是特征向量， $\theta$ 是参数向量（在神经网络中被称为权重），以下所示神经元就是一个作为激励函数的人工神经元（黄色小圈圈）， $h\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$ .
在这里插入图片描述
神经网络其实就是，这些不同的神经元组合在一起的集合。第一层Layer1称为输入层（Input layer），输入我们的特征项 $x_1、x_2、x_3$ ；最后一层Layer3称为输出层(Output layer)，输出我们假设的最终计算结果 $h_{\theta}(x)$ ；中间层Layer2称为隐藏层(Hidden layer)。

1.3 逻辑单元详解

术语	具体含义
$a^{(j)}_i$	第 $j$ 层的第 $i$ 个神经元/激励
激励（activation）	由一个具体神经元读入、计算并输出的值
$\Theta^{(j)}$	控制着从第 $j$ 层到第 $j + 1$ 层的作用的一个权重矩阵

在这里插入图片描述
如果第 $j$ 层有 $s_j$ 个单元，第 $j + 1$ 层有 $s_{j+1}$ 个的单元，那么 $\Theta^{(j)}$ 的维数将会是 $s_{j+1}*(s_j+1)$

2 模型表达II

2.1 前向传播：向量化

Forward propogation： Vectorized implementation

在这里插入图片描述
简单来说，这一层的每一个激活单元，都需要由上一层的每一个激活单元乘以一个系数再求和，包裹一个激活函数（此处为 $s i g m o i d$ 函数）得到，然后为这一层增加一个偏置单元，继续进行下一层的计算。这种由输入层，逐渐向后计算，计算到输出层的方式，称为前向传播（Forward propagation）。

2.2 神经网络的原理

在这里插入图片描述
只看后两层，非常类似于之前的线性回归， $a^{(2)}_1、a^{(2)}_2、a^{(2)}_3$ 是特征， $\Theta^{(2)}_1、\Theta^{(2)}_2、\Theta^{(2)}_3$ 是参数（因为是矩阵所以用 $\Theta$ ）。而复杂特征 $a^{(2)}_1、a^{(2)}_2、a^{(2)}_3$ ，则是由简单特征 $x_1、x_2、x_3$ 与参数 $\Theta^{(1)}_1、\Theta^{(1)}_2、\Theta^{(1)}_3$ 得到。

如果在 $\Theta$ 中选择不同的参数,有时可以学习到一些很有趣和复杂的特征,就可以得到一个更好的假设(比使用原始输入 $x_1、x_2、x_3$ 时得到的假设更好)，或者我们也可以选择多项式项 $x_1x_2x_3$ 等作为输入项，但这个算法可以灵活地快速学习任意的特征项把这些 $a_1、a_2、a_3$ 输入这个最后的单元