BP Algorithm for CNN_bp algrothim for conv-CSDN博客

本文链接：https://blog.csdn.net/Jason_Downey/article/details/83019850

本文深入探讨了BP算法在卷积神经网络（CNN）中的应用。从CNN的各层开始，包括Loss层、Softmax层、FC层、Conv层、Pooling层和ReLU层，详细解析了每一层的前向传播和反向传播过程，特别是如何计算梯度。通过矩阵运算，阐述了卷积层和全连接层中参数更新的导数计算，以及池化层和ReLU激活函数的反向传播。

摘要由CSDN通过智能技术生成

BP Algorithm for CNN

概述
BP算法
- Loss层
- 中间层
End

概述

开门见山！
令第 $l$ 层输入为 $x^{(l)}$ ，参数为 $W^{(l)}$ 和 $b^{(l)}$ ，输出为 $y^{(l)}$ ，那么对CNN中各层可以表示如下：
$y^{(l)} = f(x^{(l)}; W^{(l)},b^{(l)})= \left\{ \begin{array}{lr} conv(W^{(l)}, x)+b^{(l)}, & Conv层\\ max(0, x^{(l)}), & ReLU层\\ Max 或者 Avg, & Pooling层\\ W^{(l)}x+b^{(l)}, & FC层\\ \frac{exp(x^{(l)})}{\sum_{i=1}^c exp(x_i^{(l)})}, & Softmax层\\ \end{array} \right. \tag{1}$
$x^{(l+1)} = y^{(l)}$
令 $y^{(L)}$ 表示最后一层的输出， $\hat{y}$ 表示网络输入数据 $x^{(1)}=x$ 对应的正值。则损失函数定义为：
$loss(y^{(L)},\hat{y})= \left\{ \begin{array}{lr} \frac{1}{2}\left\|y^{(L)}-\hat{y}\right\|_2^2, & 最小均方误差，回归问题\\ -\sum_{i=1}^c 1(\hat{y}_i=1) log(y^{(L)}_i), & 交叉熵损失，分类问题\\ \end{array} \right. \tag{2}$

BP算法

BP算法起点为损失函数。

Loss层

损失函数无可学习参数，只需计算向后传播的偏导数 $\frac{\partial l}{\partial y^{(L)}}$
对最小均方误差：
$\frac{\partial l}{\partial y^{(L)}}=y^{(L)}-\hat{y} \tag{3}$
对交叉熵损失：
对多分类+单标签（每张图像只能属于一个类别）问题，真值向量 $\hat{y}$ 中只能有一个元素值不为0，假设为 $\hat{y}_j$ ，即类别为j。
$\frac{\partial l}{\partial y^{(L)}}= \left[ \begin{matrix} 0 \\ \vdots \\ 0 \\ -\frac{1}{y^{(L)}_j} \\ 0 \\ \vdots \\ 0 \\ \end{matrix} \right] \tag{4}$

中间层

Softmax层

Softmax层后通常紧跟交叉熵损失用于分类问题。
该层的前向计算为：
此时 $x^{(l)}$ 和 $y^{(l)}$ 均为c维的列向量
$y^{(l)}= \left[ \begin{matrix} y^{(L)}_1 \\ y^{(L)}_2 \\ \vdots \\ y^{(L)}_c\\ \end{matrix} \right] = \left[ \begin{matrix} \frac{exp(x^{(l)}_1)}{\sum_{i=1}^c exp(x^{(l)}_i)} \\ \vdots \\ \frac{exp(x^{(l)}_c)}{\sum_{i=1}^c exp(x^{(l)}_i)} \\ \end{matrix} \right] = \left[ \begin{matrix} p_1 \\ p_2 \\ \vdots \\ p_c \\ \end{matrix} \right] \tag{5}$
反向传播在已知 $\frac{\partial l}{\partial y^{(l)}}=\frac{\partial l}{\partial y^{(L)}}$ [公式(4)]的情况下，需要计算 $\frac{\partial l}{\partial x^{(l)}}$ 。
反向传播如下：
令E表示单位矩阵。
对 $y^{(l)}_i$ ，有：
$\frac{\partial y^{(l)}_i}{\partial x^{(l)}_j} = \left\{ \begin{array}{lr} p_i-p_i^2, & j=i \\ -p_i p_j , & otherwise \end{array} \right. \tag{6}$
进一步可得：