python从零开始学习深度学习01——神经网络反向传播的链式求导

最新推荐文章于 2024-05-27 01:39:39 发布

香港重疾险私信加微

最新推荐文章于 2024-05-27 01:39:39 发布

阅读量1k

点赞数 20

分类专栏： Python 机器学习文章标签：深度学习 python 学习

本文链接：https://blog.csdn.net/qq_31600443/article/details/138803650

版权

Python 同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

机器学习

5 篇文章 0 订阅

订阅专栏

自我介绍

最懂保险的算法工程师，致力于保险理念的推广，让每个程序员在35岁时都能够免除后顾之忧。通过构建保险组合，避免中年因病致穷，苦攒多年积蓄全部花费在医疗上，因此返贫。有兴趣的朋友后台私信加V：Archangle3_14，加不上可私信，常驻深圳，可约面谈。

交叉熵损失函数+sigmoid激活函数的链式求导

如果损失函数是交叉熵损失（entropy loss），通常用于分类任务中评估模型的输出与实际标签之间的差异。假设我们处理的是一个二分类问题，使用的输出层激活函数是sigmoid函数，那么交叉熵损失函数可以表达为：

交叉熵损失函数

对于一个给定的样本，交叉熵损失定义为：
$-\left(y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})\right)$
其中 $y$ 是实际的标签， $\hat{y}$ 是模型的预测概率，这里 $\hat{y} = \sigma(\mathbf{z})$ ，且 $\mathbf{z}$ 是隐藏层通过激活函数之前的线性输出。

链式求导

为了应用链式求导，我们首先计算 $\frac{\partial L}{\partial \hat{y}}$ ：
$\frac{\partial L}{\partial \hat{y}} = -\left(\frac{y}{\hat{y}} - \frac{1 - y}{1 - \hat{y}}\right)$

然后，考虑 $\hat{y} = \sigma(\mathbf{z})$ ，其导数 $\sigma'(z) = \sigma(z)(1 - \sigma(z))$ ，所以我们有：
$\frac{\partial \hat{y}}{\partial \mathbf{z}} = \sigma(\mathbf{z})(1 - \sigma(\mathbf{z})) = \hat{y}(1 - \hat{y})$

现在，利用链式法则计算 $\frac{\partial L}{\partial \mathbf{z}}$ ：
$\frac{\partial L}{\partial \mathbf{z}} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial \mathbf{z}} = \left(-\frac{y}{\hat{y}} + \frac{1 - y}{1 - \hat{y}}\right) \cdot \hat{y}(1 - \hat{y})$
简化上式，我们得到：
$\frac{\partial L}{\partial \mathbf{z}} = -y(1 - \hat{y}) + (1 - y)\hat{y} = \hat{y} - y$

最终，根据 $\mathbf{z} = \mathbf{Wx} + \mathbf{b}$ ，我们得到权重 $\mathbf{W}$ 和偏置 $\mathbf{b}$ 的梯度：
$\frac{\partial L}{\partial \mathbf{W}} = (\hat{y} - y) \mathbf{x}^T$
$\frac{\partial L}{\partial \mathbf{b}} = \hat{y} - y$