神经网络初步与反向传播算法

最新推荐文章于 2020-02-17 22:01:12 发布

木杉Vincent

最新推荐文章于 2020-02-17 22:01:12 发布

阅读量814

点赞数

分类专栏：机器学习文章标签：神经网络反向传播

本文链接：https://blog.csdn.net/neverever01/article/details/84142109

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

层数表示

输入数据的层叫输入层(input layer)

输出结果的层叫输出层(output layer)

除了这两层之外的层都叫隐藏层(hidden layer)

激活函数

每个结点的激活函数，通常都是sigmoid函数
$g(x)=\frac{1}{1+e^{-x}}$

表示方法denote

通常，上标表示层数，下标表示该层的第几个。

在输入层，输入结点标注为 $x_i$ ,表示输入层的第i个输入.

隐藏层的节点通常表示为 $a_i^j$ ,表示第j层的第i个结点。

激活函数通常表示为 $g (x)$ .

$\theta$ 表示影响该节点的权重,每层的权重向量都是一个矩阵 $\Theta$ ,其维度为( $s_{l+1},s_l+1$ ),意思是行数等于下一层的节点数，列数等于当前层的节点数，这里+1是因为当前层有偏差结点，而它并不连接下一层的偏差结点。

L :网络的总层数.

$s_l$ : 第 $l$ 层的总结点数

K:输出层的结点数（分类数）

如上图所示，隐藏层的各个节点可表示为：
$a^2_1=g(\theta^1_{11} x_1 + \theta^1_{12}x_2 + \theta^1_{13}x_3)$
$a^2_2=g(\theta^1_{21} x_1 + \theta^1_{22}x_2 + \theta^1_{23}x_3)$
$a^2_3=g(\theta^1_{31} x_1 + \theta^1_{32}x_2 + \theta^1_{33}x_3)$
$a^2_4=g(\theta^1_{41} x_1 + \theta^1_{42}x_2 + \theta^1_{43}x_3)$
$h_\theta(x)=a^3_1=g(\theta^2_{11} a^2_1 + \theta^2_{12}a^2_2 + \theta^2_{13}a^2_3)$
其中
$a^2_1=g(\theta^1_{11} x_1 + \theta^1_{12}x_2 + \theta^1_{13}x_3)$
表示第2层第1个结点是由输入层的三个结点以及它们的权重通过激活函数激活的。 $\theta^1_{12}$ 表示第1层的第1个节点 $a_1$ 和上一层的第2个输入节点 $x_2$ 的边的权重，记住这个权重的下标一共有两个符号，第一个是下一层的节点序号，第二个是上一层的节点序号，即 $\theta^{[layer]}_{[next \; layer \; node]\; [last \; layer \; node]}$ 。

第一层（输入层）到第二层的向量是(4×3)的矩阵，如下图：
$\Theta ^1= \begin{bmatrix} \theta^1_{11} & \theta^1_{12} & \theta^1_{13} \\ \\ \theta^1_{21} & \theta^1_{22} & \theta^1_{23} \\ \\ \theta^1_{31} & \theta^1_{32} & \theta^1_{33} \\ \\ \theta^1_{41} & \theta^1_{42} & \theta^1_{43} \end{bmatrix}$
输入层 $x$ 是(1×3)的， $a^2$ 是(1×4)的，则 $a^2$ 可以用矢量化表示为 $a^2=x*(\Theta^1)^T$ .

如图所示，输入层有10个节点（加上偏差结点共11个），隐藏层有10个节点（加上偏差结点共11个），输出层有1个节点，则每一层的权重矩阵维度如图所示。

(不过通常，在输入层和隐藏层会加入一个额外节点 $x_0,a_0$ ，称为偏差结点，这里没有画出。)

代价函数 costfunction

神经网络的代价函数跟逻辑回归的代价函数十分相似。
$J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\sum_{k=1}^{K}[y_k^ilog((h_\theta (x^i))_k)-(1-y_k^i)log(1-(h_\theta (x^i)_k)] + \frac{\lambda}{2m}\sum_{l=1}^{L} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} (\theta_{i,j}^l)^2$
虽然看上去有点长，但是结合逻辑回归的代价函数非常好理解，对K个输出节点的输出进行累加，然后再对m个训练集数据的误差进行累加，后面的部分是正则化，对K层中每两层的权重两两进行累加，求平方。

前向传播 forward propagation 过程

如图，除了输入层以外的节点和偏差结点，每个节点的值的计算方式为
$a^l_{i}=g(\theta^{l-1}_{i,0}a^{l-1}_0 + \theta ^{l-1}_{i,1} a^{l-1}_1 + \dots + \theta^{l-1}_{i,s_{l-1}}) \\ or \\ a^l=g( a^{l-1} * (\Theta^{l-1} )^T)$
其中，g(x)为激活函数， $\theta$ 是每条线上的权重

以图中红色标注的节点 $a^2_1$ 为例，它由第一层的三个节点分别乘上红线上各自的权重求和，再经过激活函数得到

其他的除了偏差结点之外的节点，都通过一样的公式得到节点的值。

反向传播算法 Back Propagation

算法流程为：

设置 $\Delta^l=0$
for i = 1 to m :（每次处理一个样例）
1. 给输入节点赋值： $a^1 = x^i$ (将每一个样本赋值给输入层的节点，这里 $a^1,x^i$ 是一个(d×1)向量而不是一个实数)
2. 通过前向传播算法，得到输出： $a^l \; for \;(l=1,2,3,\dots L)\quad (s^l,1)$
3. 获得输出层的每个节点误差： $\delta^L = y^i - a^L$ , (这里 $y^i,a^L,\delta^L$ 都是( $s_L×1)$ 向量)
4. 反向传播：计算 $\delta^l \; ,\; for \; l =(L-1,L-2,\dots,2) \quad \delta^l \; is\;(s^l,1)$ 注意：这里没有 $\delta^1$ ，因为这一层是输入节点，计算输入节点的误差没有意义。
  
  反向传播计算公式为：
  $\delta^l = (\Theta^l)^T\delta^{l+1} .* a^l .*(1-a^l)$
  $. *$ 的意思是对每个元素乘以该数，这是因为激活函数为Sigmoid函数的导数为 $\partial f(x) = f(x)(1-f(x))$
5. 更新 $\Delta:$
  $\Delta^l := \Delta^l + (\delta^{l+1})^Ta^l$
  ( $\Delta^l$ 的维数跟 $\Theta^l$ 是一样的，都是( $s_{l+1},s_l+1$ )),需要注意的是，这里需要去掉 $\delta^{l+1}$ 的第0个元素，即偏差结点，而 $a^l$ 是包含了偏差结点的。
加入正则化项，正则化项不应当包含偏差节点，所以将 $\Theta$ 的第一列（表示偏差节点权重那一列）设置为0，最终得到每层 $l$ 的梯度：
$D^l := \frac{1}{m} \Delta^l +\frac{ \lambda}{m} \Theta^l \quad for \; non-bias \; node$
$D^l := \frac{1}{m} \Delta^l \quad for \; bias \; node$
因此，神经网络的梯度为：
$\frac{\partial}{\partial \theta ^l}J(\Theta)=D^l$
手写图标注了每个中间数据的维度，m是样本数据数， $S_2$ 表示第二层节点数量

木杉Vincent

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神经网络初步与反向传播算法

层数表示输入数据的层叫输入层(input layer)输出结果的层叫输出层(output layer)除了这两层之外的层都叫隐藏层(hidden layer)激活函数每个结点的激活函数，通常都是sigmoid函数g(x)=11+e−xg(x)=\frac{1}{1+e^{-x}}g(x)=1+e−x1表示方法denote通常，上标表示层数，下标表示该层的第几个。在输入层，输...
复制链接

扫一扫