神经网络-机器学习（machine learning）笔记（Andrew Ng）

最新推荐文章于 2022-08-29 17:27:38 发布

阶艺勿听

最新推荐文章于 2022-08-29 17:27:38 发布

阅读量446

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/sinat_25721683/article/details/79115438

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

神经网络neural networks

神经网络（neural networks）

生物学上的神经元

这里写图片描述

（图片来自百度图片）
从三张图片中可以看到，神经元由细胞体，轴突和树突构成。在两个神经元传送脉冲的过程中，神经元1将脉冲从其轴突传出，神经元2的树突接受1传出的脉冲。

神经元的数学定义

这里写图片描述
（图片来自吴恩达cousera机器学习课程）
Layer 1：输入层（input layer）
Layer 2：隐藏层（hidden layer）（可能不止一个）
Layer 3：输出层（output layer）
$a_i^{(j)}$ ：在第j层单元i的“激励”（activation）（可以看做第j层的输出）
各层所做的事：

a (2) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3) a (2) 2 = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3) a (2) 3 = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3) h Θ (x) = a (3) 1 = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$a_1^{(2)}=g(\Theta_{10}^{(1)}x_0+\Theta_{11}^{(1)}x_1+\Theta_{12}^{(1)}x_2+\Theta_{13}^{(1)}x_3)\\ a_2^{(2)}=g(\Theta_{20}^{(1)}x_0+\Theta_{21}^{(1)}x_1+\Theta_{22}^{(1)}x_2+\Theta_{23}^{(1)}x_3)\\ a_3^{(2)}=g(\Theta_{30}^{(1)}x_0+\Theta_{31}^{(1)}x_1+\Theta_{32}^{(1)}x_2+\Theta_{33}^{(1)}x_3)\\ h_\Theta(x)=a_1^{(3)}=g(\Theta_{10}^{(2)}a_0^{(2)}+\Theta_{11}^{(2)}a_1^{(2)}+\Theta_{12}^{(2)}a_2^{(2)}+\Theta_{13}^{(2)}a_3^{(2)})$
这里的上标都代表这个值属于第几层。从公式中我们可以看到

x0 $x_0$ 和

a(2)0 $a_0^{(2)}$ ，这些在图中是没有的，他们的值都是1，称为偏置单位（bias unit）或偏置神经元（bias unit）。（个人想法：这里的偏置单位是为了简化计算为矩阵乘法所设，将常数项设为

x0=1 $x_0=1$ ）

y=g(x) $y=g(x)$ 是逻辑回归中介绍过的s函数，或者叫逻辑激励函数（logistic activation function）或者s激励函数（sigmoid activation function）。
如果神经网络在第j层有

sj $s_j$ 个单元，那么

Θ(j) $\Theta^{(j)}$ 是一个

sj+1∗(sj+1) $s_{j+1}*(s_j+1)$ 维的矩阵，如上面的第1层有3个单元，第2层有3个单元，

Θ(1) $\Theta^{(1)}$ 矩阵是3*4的。（提矩阵是为了方便编程实现）

神经网络计算向量化

我们将sigmoid函数的加权输入（ $\Theta$ 可以看做权重）提取为一个数 $z$ ，那么每一层的输入相当于一个 $z$ 向量，向量长度为 $s_{j+1}$ ，拿上面的例子来说就是第1层的输入为长度为3的一个列向量。
令：

x = ⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 x 2 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ z (2) = ⎡ ⎣ ⎢ ⎢ ⎢ z (2) 1 z (2) 2 z (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥

$x = \left[\begin{matrix} x_0\\x_1\\x_2\\x_3 \end{matrix}\right] \quad z^{(2)}=\left[\begin{matrix}z_1^{(2)}\\z_2^{(2)}\\z_3^{(2)}\end{matrix}\right]$
那么：

z (2) = Θ (1) x a (2) = g (z (2)) A d d a (2) 0 = 1. z (3) = Θ (2) a (2) h Θ (x) = a (3) = g (z (3))

$z^{(2)}=\Theta^{(1)}x\\ a^{(2)}=g(z^{(2)})\\ Add\quad a_0^{(2)}=1.\\ z^{(3)}=\Theta^{(2)}a^{(2)}\\ h_\Theta(x)=a^{(3)}=g(z^{(3)})$
这里我们得到

a(2) $a^{(2)}$ 之后，需要增加

a(2)0 $a_0^{(2)}$ ，产生一个长度为4的向量，满足下一层的输入，所以在编程实现的时候我们需要注意不要忘记这个细节。

神经网络的隐藏层到输出层与逻辑回归很相似。那么神经网络和逻辑回归的不同在于逻辑回归以输入层 $x$ 作为输出层 $h$ 的输入，而神经网络以隐藏层最后一层作为输出层的输入。我们也可以说神经网络对自己的特征进行学习，以期得到更好的特征用于最后一层（输出层）的输入。（最开始的输入也可以是多项式）
另外，我们可以想象由很多类似上图的神经元可以组成一个神经网络。一些神经元的输出可以作为某个神经元的输入，这就是生物学上神经元轴突和树突的概念启发而来。
另外，我们上面提及的是一种前向传播在神经网络中工作的方式，即由输入层激活（‘activate’）中间的隐藏层，最后激活输出层进行输出。

阶艺勿听

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络-机器学习（machine learning）笔记（Andrew Ng）

神经网络neural networks生物学上的神经元神经元的数学定义神经网络计算向量化神经网络（neural networks）生物学上的神经元（图片来自百度图片）从三张图片中可以看到，神经元由细胞体，轴突和树突构成。在两个神经元传送脉冲的过程中，神经元1将脉冲从其轴突传出，神经元2的树突接受1传出的脉冲。神经元的数学定义（图片来自吴
复制链接

扫一扫