神经网络

最新推荐文章于 2022-04-20 09:35:10 发布

jingshuiliushen_zj

最新推荐文章于 2022-04-20 09:35:10 发布

阅读量287

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/jingshuiliushen_zj/article/details/83033373

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一、生物学上的神经网络

神经网络是由神经元组成的，在生物神经网络中，每个神经元与其他神经元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过了一个“阈值”，那么它就会被激活，即“兴奋”起来，再向其他神经元发送化学物质。

二、神经元模型

1943 年，McCulloch 和 Pitts 将上述情形抽象为 M-P 神经元模型。神经元接收来自 n 个其他神经元传递过来的输入信号 x，这些输入信号通过带权重 w 的连接进行传递，神经元接收到的总输入值 $\sum_{i=1}^{n}w_ix_i$ ，将与神经元的阈值 θ 进行比较，然后通过“激活函数”f 处理产生神经元的输出： $y=f(\sum_{i=1}^{n}w_ix_i-θ)$
M-P 神经元模型：

在上面的神经元模型中，包含两层神经元（输入层和输出层），只拥有一层功能神经元（因为只有输出层神经元进行激活函数处理）。回想逻辑回归，和上面的模型是非常相似的，其中激活函数是Sigmoid函数：

三、神经网络模型与前向传播

如果在此基础上加一层隐藏层，就构成了浅层神经网络（三层：输入层、隐藏层、输出层）：
在这里插入图片描述
标上“+1”的圆圈被称为偏置节点，也就是截距项。没有其他单元连向偏置单元(即偏置单元没有输入)，因为它们总是输出 +1。
我们用 $n_l$ 来表示网络的层数，本例中 $n_l=3$ ，我们将第 $l$ 层记为 $L_l$ ，于是 $L_1$ 是输入层，输出层是 $L_{n_l}$ 。本例神经网络有参数 $W,b) = (W^{(1)}, b^{(1)}, W^{(2)}, b^{(2)})$ ，其中 $W^{(l)}_{ij}$ （下面的式子中用到）是第 $l$ 层第j单元与第 $l + 1$ 层第i单元之间的联接参数（其实就是连接线上的权重，注意标号顺序）， $b^{(l)}_i$ 是第 $l + 1$ 层第i单元的偏置项。因此在本例中， $W^{(1)} \in \Re^{3\times 3}$ ， $W^{(2)} \in \Re^{1\times 3}$ 。我们用 $s_l$ 表示第 $l$ 层的节点数（偏置单元不计在内）。

你也许会问，为什么权重的标号为什么要这样设计？这主要是为了便于模型用于矩阵表示运算，将输出的索引放在前面的话，则线性运算不用转置,即直接为 $w x + b$

我们用 $a^{(l)}_i$ 表示第 $l$ 层第i单元的激活值（输出值）。当 $l = 1$ 时， $a^{(1)}_i = x_i$ ，也就是第i个输入值（输入值的第i个特征）。对于给定参数集合W,b,我们的神经网络就可以按照函数 $h_{W,b}(x)$ 来计算输出结果。本例神经网络的计算步骤如下：
$a_1^{(2)}= f(W_{11}^{(1)}x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)})\\ a_2^{(2)}= f(W_{21}^{(1)}x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)})\\ a_3^{(2)} = f(W_{31}^{(1)}x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)}\\ h_{W,b}(x) = a_1^{(3)} = f(W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)} a_2^{(2)} + W_{13}^{(2)} a_3^{(2)} + b_1^{(2)})$

我们用 $z^{(l)}_i$ 表示第 $l$ 层第 $i$ 单元输入加权和（包括偏置单元），比如， $z_i^{(2)} = \sum_{j=1}^n W^{(1)}_{ij} x_j + b^{(1)}_i$ ，则 $a^{(l)}_i = f(z^{(l)}_i)$ 。

这样我们就可以得到一种更简洁的表示法。这里我们将激活函数 $f(\cdot)$ 扩展为用向量来表示，即 $f([z_1, z_2, z_3]) = [f(z_1), f(z_2), f(z_3)]$ ，那么，上面的等式可以更简洁地表示为：
$z^{(2)} = W^{(1)} x + b^{(1)}\\ a^{(2)} = f(z^{(2)})\\ z^{(3)} = W^{(2)} a^{(2)} + b^{(2)}\\ h_{W,b}(x) = a^{(3)} = f(z^{(3)})$
我们将上面的计算步骤叫作前向传播。回想一下，之前我们用 $a^{(1)} = x$ 表示输入层的激活值，那么给定第 $l$ 层的激活值 $a^{(l)}$ 后，第 $l + 1$ 层的激活值 $a^{(l+1)}$ 就可以按照下面步骤计算得到：
$z^{(l+1)} = W^{(l)} a^{(l)} + b^{(l)} \\ a^{(l+1)} = f(z^{(l+1)})$