BN层反向传播公式推导

最新推荐文章于 2023-06-28 18:47:14 发布

CDL_03

最新推荐文章于 2023-06-28 18:47:14 发布

阅读量558

点赞数

分类专栏：深度学习文章标签：概率论机器学习深度学习

本文链接：https://blog.csdn.net/qq_34440148/article/details/119864538

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

最后loss对参数的总梯度，是所有的梯度之和
前向：
$\hat{x_i} = \frac{x_i-\mu}{\sqrt{\sigma^2}}$
$y=\gamma x_i+\beta$
基本求导：
$\frac{\partial \sigma^{2}}{\partial \mu}= \frac{1}{m}\sum_{i=1}^{m}[-2(x_i-\mu)]$
$\frac{\partial \hat{x_i}}{\partial \mu}= \frac{-1}{\sqrt{\sigma^{2}}}+\frac{\partial \hat{x_i}}{\partial \sigma^{2}}\frac{\partial \sigma^{2}}{\partial \mu}$
$\frac{\partial \hat{x_i}}{\partial \sigma^{2}}= (x_i-\mu)(-\frac{1}{2})(\sigma^{2})^{\frac{-3}{2}}$
推导:
$①\frac{\partial l}{\partial \sigma^{2}}= \sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}} [\frac{\partial \hat{x_i}}{\partial \sigma^{2}}]= \sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}} [(x_i-\mu)(-\frac{1}{2})(\sigma^2)^{\frac{-3}{2}}]$
$②\frac{\partial l}{\partial \mu}= \sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}} [\frac{\partial \hat{x_i}}{\partial \mu}]= \sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}} [\frac{ \frac{x_i-\mu}{\sqrt{\sigma^2}}}{\partial \mu}] = \sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}} [\frac{-1}{\sqrt{\sigma^2}}+\frac{\partial \hat{x_i}}{\partial \sigma^2}\frac{\partial \sigma^2}{\partial \mu}]$
$\sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}} [\frac{-1}{\sqrt{\sigma^2}}+(x_i-\mu)(-\frac{1}{2})(\sigma^{2})^{\frac{-3}{2}}*\frac{\partial \sigma^2}{\partial \mu}]$
$\sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}} \frac{-1}{\sqrt{\sigma^2}} + [\sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}}(x_i-\mu)(-\frac{1}{2})(\sigma^{2})^{\frac{-3}{2}}] * \frac{\partial \sigma^2}{\partial \mu}$
$\sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}} \frac{-1}{\sqrt{\sigma^2}} + \frac{\partial l}{\partial \sigma^{2}} * \frac{\partial \sigma^{2}}{\partial \mu} = \sum_{i=1}^{m} \frac{\partial l}{\partial \hat{x_i}} \frac{-1}{\sqrt{\sigma^2}} + \frac{\partial l}{\partial \sigma^{2}} * \frac{1}{m}\sum_{i=1}^{m}[-2(x_i-\mu)]$
码完了这一条才想起来好像有学过多元函数求中间变量偏导的内容。。。去百度找了，贴图在下面了
在这里插入图片描述

所以根据这个全导数求导法则：
$\hat{x_i} = \frac{x_i-\mu}{\sqrt{\sigma^2}}$
$③\frac{\partial l}{\partial \hat{x_i}} = \frac{\partial l}{\partial \hat{x_i}}\frac{\partial \hat{x_i}}{\partial x_i}+\frac{\partial l}{\partial \mu}\frac{\partial \mu}{\partial x_i}+\frac{\partial l}{\partial \sigma^2}\frac{\partial \sigma^2}{\partial x_i}$
$=\frac{\partial l}{\partial \hat{x_i}} \frac{1}{\sqrt{\sigma^2}} + \frac{\partial l}{\partial \mu}\frac{1}{x} + \frac{\partial l}{\partial \sigma^2}\frac{2}{m}(x_i-\mu)$

CDL_03

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BN层反向传播公式推导

最后loss对参数的总梯度，是所有的梯度之和前向：xi^=xi−μσ2\hat{x_i} = \frac{x_i-\mu}{\sqrt{\sigma^2}}xi^=σ2xi−μy=γxi+βy=\gamma x_i+\betay=γxi+β基本求导：∂σ2∂μ=1m∑i=1m[−2(xi−μ)]\frac{\partial \sigma^{2}}{\partial \mu}= \frac{1}{m}\sum_{i=1}^{m}[-2(x_i-\mu)]∂μ∂σ2=
复制链接

扫一扫