反向传播算法

最新推荐文章于 2022-01-04 11:10:23 发布

hawkcici160

最新推荐文章于 2022-01-04 11:10:23 发布

阅读量539

点赞数 1

分类专栏： Deep Learning 文章标签：深度学习算法

本文链接：https://blog.csdn.net/hawkcici160/article/details/77750990

版权

Deep Learning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

《Neural Networks and Deep Learning》学习笔记——《Neural Networks and Deep Learning》是Michael Nielsen 所著的一本神经网络与深度学习的在线学习教材，通过Python(+Theano)实现神经网络识别MNIST手写数据集，生动易懂的讲解了神经网络与深度学习的基本原理，是一本非常不错的入门教材。本文是对其学习的总结。

初识神经网络
1.1 感知器
1.2 Sigmoid函数
1.3 代价函数
1.4 梯度下降算法
反向传播算法
神经网络改进算法
深度学习
4.1 万有逼近定理(Universal Approximation Theory)
4.2 训练深度神经网络时的问题
4.3 卷积神经网络(CNN)

我们现在知道可以通过梯度下降算法来学习权值 $\omega$ 和偏置b的最优值来获得目标输出，但如何快速计算梯度呢，这里就要应用到反向传播算法(Backpropagation algorithm)。
反向传播算法是目前计算梯度最常用的快速算法。
首先定义（第 $l$ 层）加权输入 $z^l=w^la^{l-1}+b^l$ ，则输出为 $a^l=\sigma(z^l)$ 。其矩阵形式为，
$z^l_j= \sum_k w^l_{jk} a^{l-1}_k+b^l_j$ ，其中 $\omega^l_{jk}$ 表示第 $l$ 层的j个神经元和第 $l-1$ 层的第k个神经元之间的权值。
下面我们再定义第 $l$ 层第j个神经元的误差 $\delta^l_j=\frac{\partial C} {\partial z^l_j}$ ，引入误差 $\delta^l$ 是因为反向传播算法是通过计算每一层的误差得到梯度值( $\partial C / \partial \omega^l_{jk}和\partial C / \partial b^l_j$ )的。
反向传播算法基于四个公式，

其中 $\odot$ 表示哈马德乘积，即矩阵对应元素相乘。根据 $\delta^l$ 的定义及链式求导法则可以证明这四个公式（证明略）。
基于上述定义，现在可以引入反向传播算法：

1	输入	$a^1$ (X)
2	前向反馈	$z^{l} = w^l a^{l-1}+b^l , a^{l} = \sigma(z^{l})$
3	误差	$\delta^{L}= \nabla_a C \odot \sigma'(z^L)$
4	反向传播	$\delta^{l} = ((w^{l+1})^T \delta^{l+1}) \odot \sigma'(z^{l})$
5	输出	$\frac{\partial C}{\partial w^l_{jk}} = a^{l-1}_k \delta^l_j , \frac{\partial C}{\partial b^l_j} = \delta^l_j$

注：反向传播算法实际上对单个输入样本计算梯度，因此这里面的代价函数C= $C_x$ 。

那么反向传播算法的实质是什么呢？
假设将 $l$ 层的某个权值 $\omega^l_{jk}$ 增加 $\Delta\omega^l_{jk}$ ，则这个权值增量会影响 $l+1$ 层的输出 $a_j^{l+1}$ ,继而又会影响 $l+2$ 层的所有输出 $a^{l+2}$ ，然后又影响之后各层的输出……从而影响代价函数C。（因此神经网络需要经过多轮训练，从而找到所有相互依赖的参数的最优值）

用数学描述上述过程，即

Δ C \approx \sum m n p \dots q \partial C \partial a L m \partial a L m \partial a L - 1 n \partial a L - 1 n \partial a L - 2 p \dots \partial a l + 1 q \partial a l j \partial a l j \partial w l j k Δ w l j k, (1)

$\begin{eqnarray} \Delta C \approx \sum_{mnp\ldots q} \frac{\partial C}{\partial a^L_m} \frac{\partial a^L_m}{\partial a^{L-1}_n} \frac{\partial a^{L-1}_n}{\partial a^{L-2}_p} \ldots \frac{\partial a^{l+1}_q}{\partial a^l_j} \frac{\partial a^l_j}{\partial w^l_{jk}} \Delta w^l_{jk}, \tag{1}\end{eqnarray}$
或

\partial C \partial w l j k = \sum m n p \dots q \partial C \partial a L m \partial a L m \partial a L - 1 n \partial a L - 1 n \partial a L - 2 p \dots \partial a l + 1 q \partial a l j \partial a l j \partial w l j k . (2)

$\begin{eqnarray} \frac{\partial C}{\partial w^l_{jk}} = \sum_{mnp\ldots q} \frac{\partial C}{\partial a^L_m} \frac{\partial a^L_m}{\partial a^{L-1}_n} \frac{\partial a^{L-1}_n}{\partial a^{L-2}_p} \ldots \frac{\partial a^{l+1}_q}{\partial a^l_j} \frac{\partial a^l_j}{\partial w^l_{jk}}. \tag{2}\end{eqnarray}$
综上，反向传播算法是一种巧妙的追踪参数(

ω ω $\omega$ ,b)影响的算法，这种影响的描述即是梯度。

最后用流程对神经网络整体框架做一简单总结：

$C\downarrow\to\nabla C(GD)\to\delta(BP)\to w,b (\frac{\partial C}{\partial w},\frac{\partial C}{\partial b})\to a$

hawkcici160

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
反向传播算法

《Neural Networks and Deep Learning》学习笔记——《Neural Networks and Deep Learning》是Michael Nielsen 所著的一本神经网络与深度学习的在线学习教材，通过Python(+Theano)实现神经网络识别MNIST手写数据集，生动易懂的讲解了神经网络与深度学习的基本原理，是一本非常不错的入门教材。本文是对其学习的总结。...
复制链接

扫一扫