nndl学习笔记（一）反向传播公式总结

最新推荐文章于 2024-09-25 19:52:15 发布

zorchp

最新推荐文章于 2024-09-25 19:52:15 发布

阅读量2.2k

点赞数

分类专栏： ML&DL 文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/qq_41437512/article/details/105606834

版权

ML&DL 专栏收录该内容

12 篇文章

订阅专栏

本文介绍了反向传播算法的基本概念，包括定义、公式及其在神经网络中的应用。详细解释了四个基本方程，并提供了Python实现代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

nndl是什么？
反向传播算法简介
定义&公式
基本思想
Back Propagation四个基本方程
算法表示
Python实现

nndl是什么？

《神经网络与深度学习》（《Neural Network and Deep Learning》）是机器学习大神
Michael Nielsen介绍神经网络入门的一本教材，英文地址：http://neuralnetworksanddeeplearning.com/在此感谢译者Xiaohu Zhu和Freeman Zhang。有对机器学习和神经网络有关内容感兴趣的读者，点这里获取相关资源。
P.S.： 本文仅对该书第二章进行总结，其中的描述会不全面，想详细了解请点击链接下载学习。

反向传播算法简介

反向传播算法（Backpropagation Algorithm），最初在二十世纪70年代被提出，但真正得到重视是在1986年。反向传播被应用于计算损失函数（代价函数）的梯度，具有稳定、速度快等特点。

定义&公式

权重(Weight) $w_{jk}^{l}:$ 代表从 $l-1)^{th}$ 层的第 $k^{th}$ 个神经元到 $l^{th}$ 层的第 $j^{th}$ 个神经元的连接上的权重（注意 $j$ 和 $k$ 代表的意义从位置上看是反过来的，这样做是为了方便矩阵乘积直接计算而不用进行转置操作，一开始不太好理解；还有上面的层数 $l$ 指的是到达层的位置，故前一层 $l-1)^{th}$ 需要减去 $1$ ）。

偏置(Bias) $b_{j}^{l} :$ 表示在第 $l^{th}$ 层第 $j^{th}$ 个神经元的偏置（有种把坐标系的x,y竖起来的感觉）。

带权输入 $z_j^l$ :中间变量，表示 $l$ 层第 $j$ 个神经元的带权输入，即：
$z_j^l=\sum_kw_{jk}^la_k^{l-1}+b_j^l.$

误差(Error) $\delta_j^l:$ 中间量，表示 $l^{th}$ 层第 $j^{th}$ 个神经元上的误差。

Hadamard 乘积 $\odot t :$ 矩阵或向量的对应元素相乘，即 $\odot t)_j=s_jt_j$ 。

激活函数(Activation Function) Sigmoid函数 $:$ $\sigma(z)=\frac{1}{1+\exp(-z)},$ 其导数可表示为： $\sigma'(z)=\sigma(z)(1-\sigma(z))$

激活值(Activation) $a_{j}^{l} :$ 表示第 $l^{th}$ 层第 $j^{th}$ 个神经元的激活值，由激活函数定义可记为： $a_j^l=\sigma(z_j^l)$ 。

$l^{th}$ 层的第 $j^{th}$ 个神经元的激活值 $a_j^l$ 和 $l^{th}$ 层的激活值之间的联系：

$a^l_j = \sigma(z_j^l)= \sigma\left(\sum_kw^l_{jk}a^{l−1}_k+b^l_j\right).$

$a^l = \sigma(w^la^{l-1}+b^ l).$

二次代价函数(Cost Function) :

$C=\frac{1}{2n}\sum_x{||y(x)-a^L(x)||^2}.$

基本思想

反向传播的目标是计算代价函数 $C$ 分别关于权重 $w$ 和偏置 $b$ 的偏导 $\partial C/\partial w$ 和 $\partial C/\partial b$ 。为了使反向传播算法可以正常工作，我们需要做两个主要假设如下。

第一个假设：代价函数可以被写成一个在每个训练样本 $x$ 上的代价函数 $C_x$ 的均值 $C=\frac1n\sum_x{C_x}=\frac1n\sum_x{\frac12||y-a^L||^2}$ 。其原因是反向传播实际上是对一个独立的训练样本计算 $\partial C_x/\partial w$ 和 $\partial C_x/\partial b$ ，然后我们通过在所有训练样本上进行平均化获得 $\partial C/\partial w$ 和 $\partial C/\partial b$ 。
第二个假设：代价函数可以写成神经网络输出的函数，例如：
$C=\frac{1}{2n}\sum_x{||y(x)-a^L(x)||^2}=\frac12\sum_j{(y_j-a^L_j)^2}$

Back Propagation四个基本方程

输出层的误差(注意输出层使用大写L记号) $\delta_j^L=\frac{\partial C}{\partial a_j^L}\sigma'(z_j^L)$ 矩阵表示：
$\delta^L=\nabla_aC\odot\sigma'(z^L)$
使用下一层的误差 $\delta^{l+1}$ 来表示当前层的误差 $\delta^l$
$\delta_j^l=\sum_k{w_{jk}^{l+1}\delta_{k}^{l+1}\sigma'(z_j^l)}$

$\delta^l=((w^{l+1})^T\delta^{l+1})\odot \sigma'(z^l)$

代价函数关于网络中任意偏置的改变率 $\frac{\partial C}{\partial b_j^l}=\delta_j^l$
代价函数关于任何一个权重的改变率 $\frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l$ 矩阵形式：
$\frac{\partial C}{\partial w}=a_{in}\delta_{out}$

算法表示

输入 $x$ ：为输入层设置激活值 $a^1$ ；
前向传播：对每个 $l=2,3,\cdots,L$ 计算相应的 $z^l=w^la^{l-1}+b^l$ 和 $a^l=\sigma(z^l)$ ；
输出层误差 $\delta^l$ ：计算向量 $\delta^l=\nabla_aC\odot\sigma'(z^l)$ ；
反向传播误差：对每一个 $l=L-1,L-2,\cdots,2,$ 计算 $\delta_l=((w^{l+1})^T\delta^{l+1})\odot\sigma'(z^l)$
输出：代价函数的梯度 $\frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l$ $\frac{\partial C}{\partial b_j^l}=\delta_j^l$

Python实现

仅反向传播部分的代码，完整代码请见该书第二章。

import numpy as np

def sigmoid(z):
	return 1. / (1. + np.exp(-z))
def sigmoid_prime(z):
	return sigmoid(z) * (1 - sigmoid(z))
	
class Network(object):
"""
省略其余方法的实现
"""
	def backprop(self, x, y):
		# 初始化权重向量和偏置向量，一般为零矩阵
		nabla_b = [np.zeros(b.shape) for b in self.biases]
		nabla_w = [np.zeros(w.shape) for w in self.weights]
		
		# 初始化激活值以及z向量（神经元的值z组成的向量）
		activation = x
		activations = [x]
		z_vectors = []
		
		# 开始循环计算z向量及激活向量
		for b, w in zip(self.biases, self.weights):
			z = np.dot(w, activation) + b
			z_vectors.append(z)
			activation = sigmoid(z)
			activations.append(activation)
			
		# 开始计算输出层的误差，应用第一个方程
		delta = self.cost_derivative(activations[-1], y) * sigmoid_prime(z_vectors[-1])
		nabla_b[-1] = delta
		nabla_w[-1] = np.dot(delta, activations[-2].T)
		
		# 开始向前计算误差并存入梯度b及梯度w，应用第二个方程
		for l in range(2, self.num_layers):
			z = z_vectors[-l]
			delta = np.dot(self.weights[-l + 1].T, delta) * sigmoid_prime(z)
			nabla_b[-l] = delta
			nabla_w[-l] = np.dot(delta, activations[-l-1].T)
	return nabla_b, nabla_w

	def cost_derivative(self, output_activations, y):
		# 定义代价函数的导数（梯度），本例中使用二次代价函数，故其导数为(输出层激活向量-y)
		return output_activations - y