深度学习流程（四）之反向传播

最新推荐文章于 2024-01-27 01:02:32 发布

PhenomenonMe

最新推荐文章于 2024-01-27 01:02:32 发布

阅读量115

点赞数

分类专栏：笔记文章标签：深度学习

本文链接：https://blog.csdn.net/firehuiplane/article/details/118546049

版权

笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文深入探讨了深度学习中的前向传播、梯度下降和反向传播原理，特别是针对交叉熵损失函数的梯度计算。此外，讨论了梯度爆炸和梯度消失现象，解释了它们对模型训练的影响，并提出了包括ReLU激活函数、梯度裁剪和权重正则化在内的解决方案。

摘要由CSDN通过智能技术生成

一、前向传播

在前向传播过程中，要保留神经元的输出。

二、梯度下降

首先定义残差，设有 L 层，损失为 c $\frac{\partial c}{\partial z_j^L}=\frac{\partial c}{\partial a_j^L}\cdot \frac{\partial a_j^L}{\partial z_j^L}=\delta_j^L$ 对于网络中，任意一层 l $\begin{aligned} \frac{\partial c}{\partial z_j^l} &= \sum_k \frac{\partial c}{\partial z_k^{l+1}}\cdot \frac{\partial z_k^{l+1}}{\partial a_j^l} \cdot \frac{\partial a_j^{l}}{\partial z_j^l}\\ &=\sum_k \delta_j^{l+1} \cdot w_{jk}^{l+1} \cdot \frac{\partial a_j^{l}}{\partial z_j^l} \\ &= \delta_j^l \end{aligned}$ 然后计算参数的梯度 $\frac{\partial c}{\partial w_{kj}^c}=\frac{\partial c}{\partial z_j^l}\cdot \frac{\partial z_j^l}{\partial w_{kj}^l}=\delta_l^l \cdot a_k^{l-1}$ $w_{kj} \leftarrow w_{kj}-lr \cdot \frac{\partial c}{\partial w_{ij}}$

三、交叉熵反向传播

损失函数 $L=-[ylog\hat{y}+(1-y)log(1-\hat{y})], y=\sigma(h_\theta(x))$ 所以其导数为 $\begin{aligned} \frac{\partial L}{\partial \theta_j} &= -[y\cdot \frac{1}{\hat y}\cdot \frac{\partial \hat y}{\partial \theta_j} +(1-y)\cdot \frac{1}{1-\hat y} \cdot (-1) \cdot \frac{\partial \hat y}{\partial\theta_j}]\\ &=-[y\cdot \frac{1}{\sigma}\cdot\sigma \cdot(1-\sigma)\cdot \frac{\partial h_\theta(x)}{\partial \theta_j}+(1-y)\cdot\frac{\sigma\cdot(1-\sigma)}{1-\sigma}\cdot(-1)\frac{\partial h_\theta(x)}{\partial \theta_j}] \\ &= (\sigma -y)\frac{\partial h_\theta(x)}{\partial \theta_j}\end{aligned}$

四、softmax+交叉熵损失求梯度

softmax函数为 $\frac{e^{z_k}}{\sum_k e^{z_k}}$
令前一层的输出是 $a_p$ ，输入参数为 $w_{pk}$ ，激活函数前的输出 $z_k =\sum_p w_{pk}a_p$ ，输出 $a_k= \frac{e^{z_k}}{\sum_k e^{z_k}}$ ，

那么损失为 $L=\sum_k y_k\log a_k$ 因为最后的预测为其中一类，设预测为第 j 类，那么 $L = y_j\log a_j$ ， $y_j$ 为 1， $L=\log a_j$ $\frac{\partial L}{\partial w_{pk}}=\frac{\partial L}{\partial a_j}\cdot \frac{\partial a_j}{\partial z_i}\cdot \frac{\partial z_i}{\partial w_{pk}}=\frac{\partial L}{\partial a_j}\cdot \frac{\partial a_j}{\partial z_i}\cdot a_p$
当 $i = j$ 时，也就是第 i 类的 $z_i$ 求偏导 $\begin{aligned} \frac{\partial a_j}{\partial z_i} &= \frac{\partial(\frac{e^{z_j}}{\sum_ke^{z_k}})}{\partial z_i}\\&= \frac{\partial(\frac{e^{z_j}}{\sum_ke^{z_k}})}{\partial z_j} \\ &= \frac{e^{z_j}}{\sum_ke^{z_k}}-\frac{e^{z_j}e^{z_j}}{[\sum_ke^{z_k}]^2} \\ &= \frac{e^{z_j}}{\sum_ke^{z_k}}(1- \frac{e^{z_j}}{\sum_ke^{z_k}})\\&=a_j(1-a_j)\end{aligned}$ 当 $i\neq j$ 时， $\begin{aligned} \frac{\partial a_j}{\partial z_i} &= \frac{\partial(\frac{e^{z_j}}{\sum_ke^{z_k}})}{\partial z_i}\\&=\frac{0}{\sum_ke^{z_k}}-\frac{e^{z_j}e^{z_i}}{[\sum_ke^{z_k}]^2} \\ &=-a_ja_i \end{aligned}$ 所以，当 $i = j$ 时， $\frac{\partial L}{\partial z_i}=-\frac{1}{a_j}\cdot (-a_ja_i)=a_i$ 当 $i\neq j$ 时， $\frac{\partial L}{\partial z_i}=-\frac{1}{a_j}\cdot a_j(1-a_j)=a_j-1$