深度学习笔记损失函数反向传播理解记录

最新推荐文章于 2024-08-29 00:18:17 发布

特别能挨打

最新推荐文章于 2024-08-29 00:18:17 发布

阅读量1.6k

点赞数 1

分类专栏：学习记录文章标签：深度学习神经网络经验分享

本文链接：https://blog.csdn.net/m0_51495658/article/details/109538058

版权

学习记录专栏收录该内容

6 篇文章 0 订阅

订阅专栏

深度学习笔记损失函数反向传播公式过程理解记录

深度学习的第三周课程损失函数的反向传播卡了一点时间，发现卡顿的根本原因是对前边的一些细节符号没有准确记忆，同时过程中一些同一含义的符号发生变化。联系上前文一条一条过终于顺利理解，留些记录免得遗忘。

1.逻辑回归

逻辑回归的公式都比较好理解，深度学习和机器学习笔记都反复提及：
逻辑回归公式
2.神经网络中的损失函数计算
以双层神经网络为例，有一个输入层，一个隐藏层和一个输出层。

在这里插入图片描述

反向传播就是将偏导一层一层写出来，
$dz^{[2]}=\frac{dL}{da^{2}}\cdot \frac{da^{2}}{dz^{2}}$
其中： $L\mathrm{为损失函数定义}:\;L=L(\overset\wedge y^{(i)},y^{(i)})=-y^{(i)}\log\;\overset\wedge y^{(i)}-(1-y^{(i)})\log(1-\;\overset\wedge y^{(i)})\;，\mathrm{此处}\overset\wedge y^{(i)}为a^{\lbrack2\rbrack}\\a^{\lbrack2\rbrack}=\sigma(z^{\lbrack2\rbrack})=\frac1{1+e^{-z^{\lbrack2\rbrack}}}\;;\;\mathrm{其中}\sigma()\mathrm{为激活函数}，\mathrm{教材用的依然是}sigmod\mathrm{函数}$
所以可以得到：
$\frac{da^{\lbrack2\rbrack}}{dz^{\lbrack2\rbrack}}=a^{\lbrack2\rbrack}(1-a^{\lbrack2\rbrack})\;;\;da^{\lbrack2\rbrack}=\frac{dL}{da^{\lbrack2\rbrack}}=-y/a^{\lbrack2\rbrack}+(1-y)/(1-a^{\lbrack2\rbrack})\;\;$
所以： $dz^{[2]}=\frac{dL}{da^{2}}\cdot \frac{da^{2}}{dz^{2}}=a^{[2]}-y$
按两层写一下逻辑回归方程：
$\mathrm{第一层}：z^{\lbrack1\rbrack}=w^{\lbrack1\rbrack}a^{\lbrack0\rbrack}+b^{\lbrack1\rbrack}\;;\;$
$\mathrm{其中}\;a^{\lbrack0\rbrack}=x\;;$
$\mathrm{第一层激活}：a^{\lbrack1\rbrack}=\sigma(z^{\lbrack1\rbrack})\;;$
$\mathrm{第二层}：z^{\lbrack2\rbrack}=w^{\lbrack2\rbrack}a^{\lbrack1\rbrack}+b^{\lbrack2\rbrack}\;;$
$\mathrm{第二层激活}：a^{\lbrack2\rbrack}=\sigma(z^{\lbrack2\rbrack})\;;$
$\mathrm{输出}：\widehat y=a^{\lbrack2\rbrack}\;;$

w在z表达式中，所以对w的求导需要先解L再解z。

$dw=\frac{dL}{dz}\cdot\frac{dz}{dw}=\frac{dL}{dz}\cdot x=dz\cdot x;$

所以由两层逻辑回归方程可以得到：

$dw^{\lbrack2\rbrack}=dz^{\lbrack2\rbrack}\cdot a^{\lbrack1\rbrack}\;;\;dw^{\lbrack1\rbrack}=dz^{\lbrack1\rbrack}\cdot a^{\lbrack0\rbrack}\;,\;\mathrm{其中}a^{\lbrack0\rbrack}=x;$

综上所述，过程1，解第二层需要从输出层往前挨个求偏导。过程2.求第一层也是从输出层挨个往前求偏导，无非就是挨个往前的中间变量可以用过程1的结果做替换，也就是这里面容易跟不上了，一层一层写出来看一遍就会了。

$dz^{\lbrack1\rbrack}=(\frac{dL}{da^{\lbrack2\rbrack}}\cdot\frac{da^{\lbrack2\rbrack}}{dz^{\lbrack2\rbrack}})\cdot\frac{dz^{\lbrack2\rbrack}}{da^{\lbrack1\rbrack}}\cdot\frac{da^{\lbrack1\rbrack}}{dz^{\lbrack1\rbrack}}\;;$