深入理解D2L项目中的前向传播与反向传播机制-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00537/article/details/148361986

深入理解D2L项目中的前向传播与反向传播机制

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

引言

在深度学习领域，理解神经网络的前向传播(Forward Propagation)和反向传播(Backpropagation)机制至关重要。本文基于D2L项目中的相关内容，将深入探讨这两个核心概念及其在多层感知机(MLP)中的具体实现。

前向传播详解

前向传播是指从输入层到输出层依次计算并存储神经网络中间变量（包括输出）的过程。让我们以一个简单的单隐藏层MLP为例，逐步解析这个过程。

数学表达

输入到隐藏层的转换：
- 输入向量：$\mathbf{x}\in \mathbb{R}^d$
- 权重矩阵：$\mathbf{W}^{(1)} \in \mathbb{R}^{h \times d}$
- 中间变量：$\mathbf{z}= \mathbf{W}^{(1)} \mathbf{x}$
激活函数应用：
- 激活函数：$\phi$
- 隐藏层输出：$\mathbf{h}= \phi (\mathbf{z})$
隐藏层到输出层的转换：
- 输出层权重：$\mathbf{W}^{(2)} \in \mathbb{R}^{q \times h}$
- 输出向量：$\mathbf{o}= \mathbf{W}^{(2)} \mathbf{h}$
损失计算：
- 损失函数：$l$
- 单个样本损失：$L = l(\mathbf{o}, y)$
- 正则化项：$s = \frac{\lambda}{2} (|\mathbf{W}^{(1)}|\textrm{F}^2 + |\mathbf{W}^{(2)}|\textrm{F}^2)$
- 总目标函数：$J = L + s$

计算图可视化

计算图是理解前向传播的有力工具，其中：

方框表示变量
圆圈表示运算符
箭头表示数据流向（通常从左下角输入到右上角输出）

这种可视化方法清晰地展示了各操作和变量间的依赖关系。

反向传播机制

反向传播是计算神经网络参数梯度的方法，它按照与正向传播相反的顺序遍历网络，并应用微积分中的链式法则。

链式法则的应用

对于复合函数$\mathsf{Z}=g(f(\mathsf{X}))$，其导数为： $$\frac{\partial \mathsf{Z}}{\partial \mathsf{X}} = \textrm{prod}\left(\frac{\partial \mathsf{Z}}{\partial \mathsf{Y}}, \frac{\partial \mathsf{Y}}{\partial \mathsf{X}}\right)$$

这里的$\textrm{prod}$运算符根据张量的维度执行适当的乘法操作（如矩阵乘法或元素级乘法）。

梯度计算步骤

目标函数梯度分解： $$\frac{\partial J}{\partial L} = 1 \quad \text{和} \quad \frac{\partial J}{\partial s} = 1$$
输出层梯度： $$\frac{\partial J}{\partial \mathbf{o}} = \frac{\partial L}{\partial \mathbf{o}} \in \mathbb{R}^q$$
正则化项梯度： $$\frac{\partial s}{\partial \mathbf{W}^{(1)}} = \lambda \mathbf{W}^{(1)}$$ $$\frac{\partial s}{\partial \mathbf{W}^{(2)}} = \lambda \mathbf{W}^{(2)}$$
输出层参数梯度： $$\frac{\partial J}{\partial \mathbf{W}^{(2)}} = \frac{\partial J}{\partial \mathbf{o}} \mathbf{h}^\top + \lambda \mathbf{W}^{(2)}$$
隐藏层梯度传播：
- 隐藏层输出梯度：$\frac{\partial J}{\partial \mathbf{h}} = {\mathbf{W}^{(2)}^\top \frac{\partial J}{\partial \mathbf{o}}$
- 激活前梯度：$\frac{\partial J}{\partial \mathbf{z}} = \frac{\partial J}{\partial \mathbf{h}} \odot \phi'\left(\mathbf{z}\right)$
- 输入层参数梯度：$\frac{\partial J}{\partial \mathbf{W}^{(1)}} = \frac{\partial J}{\partial \mathbf{z}} \mathbf{x}^\top + \lambda \mathbf{W}^{(1)}$