深度学习（二）梯度推导

最新推荐文章于 2024-06-14 10:40:17 发布

得克特

最新推荐文章于 2024-06-14 10:40:17 发布

阅读量4.7k

点赞数 2

分类专栏：深度学习文章标签：梯度

本文链接：https://blog.csdn.net/weixin_40548136/article/details/106915475

版权

深度学习专栏收录该内容

34 篇文章 1 订阅

订阅专栏

文章目录

1.梯度介绍

深度学习的训练本质是优化损失，优化的方式是计算梯度，然后通过优化算法更新参数，常见的优化算法SGD/Momentum/Adagrad/RMSProp/Adam等，本文总结一下梯度的计算。

2.链式法则

利用微分求梯度的方法计算量太大，而误差反向传播算法的出现提高了计算效率，误差反向传播算法(BP)主要基于链式法则。
链式法则是求复合函数的导数：
例如多元复合函数 $f=x^2y$ ，可以看作 $f (x, y) = p (x) q (y)$ ，其中 $p(x)=x^2$ ， $q (y) = y$
$\frac{\partial{f}}{\partial{x}}=\frac{\partial{f}}{\partial{p}}*\frac{\partial{p}}{\partial{x}}=q*2x=2xy$
$\frac{\partial{f}}{\partial{y}}=\frac{\partial{f}}{\partial{q}}*\frac{\partial{q}}{\partial{y}}=p*1=x^2$

有了偏导数，当y的梯度已知，各变量的梯度=偏导数*y的梯度，因此有几点常用如下

1.如果是由a + b = y，则反向传播时a b 的梯度相等，且等于y的梯度
2.如果是a * b = y，则反向传播时a b 的梯度分别为b a，如果是矩阵运算会涉及到矩阵转换
3.max操作梯度只有传播到取最大值的一路

在这里插入图片描述
图片来自梯度是如何计算的

3.逻辑回归梯度计算

逻辑回归流程如下

全连接 $z = w^Tx +b=w_1x_1+w_2x_2+b$
激活层 $\hat{y}=a = \sigma(z)$
损失层（二分类交叉熵） $L (a, y) = - (y l o g (a) + (1 - y) l o g (1 - a))$

这里激活函数为sigmoid $a=\frac{1}{1+exp(-x)}$
$\frac{da}{dz}=\frac{1}{(1+e^{-x})^2}*e^{-x}=\frac{1}{1+e^{-x}}*\frac{e^{-x}}{1+e^{-x}}=\frac{1}{1+e^{-x}}*(1-\frac{1}{1+e^{-x}})$
$\frac{da}{dz}=y*(1-y)$

先求L(a,y)关于a的导数 $\frac{dL(a,y)}{da}=-y/a+(1-y)/(1-a)$
因为 $\frac{dL(a,y)}{dz}=(\frac{dL}{da})*(\frac{da}{dz})$
所以有 $dz=\frac{dL(a,y)}{dz}=(\frac{dL}{da})*(\frac{da}{dz})=[-y/a+(1-y)/(1-a)]*a(1-a)\\ dz=a-y$

进一步推导w和b
$dw_1=\frac{1}{m}\sum_i^mx_1^{(i)}(a^{(i)}-y^{(i)})\\ dw_2=\frac{1}{m}\sum_i^mx_2^{(i)}(a^{(i)}-y^{(i)})\\ db=\frac{1}{m}\sum_i^m(a^{(i)}-y^{(i)})$

4.梯度矩阵形式推导

标量对矩阵的求导，参考另外一篇转载的博客矩阵求导术

趁热打铁，我们把矩阵形式的梯度推导一下，先放结果。假设 $D = w x$
$dW=dD.dot(X.T)\\ dX=W.T.dot(dD)$

a*b 表示矩阵对应位置相乘
a.dot(b) 表示矩阵内积

4.1基础知识

一元微积分中的微分 $d f$ 与导数的全微分公式 $f^{'} (x)$ $d f = f^{'} (x) d x$
多元微积分中的微分 $d f$ 与梯度的全微分公式 $\frac{\partial{f}}{\partial{x}}$ ： $df=\sum_{i=1}^{n}\frac{\partial{f}}{\partial{x_i}}dx_i=(\frac{\partial{f}}{\partial{x}})^Tdx$

从多元微积分的全微分公式可以看到全微分df等于梯度向量(n,1)与微分向量dx(n,1)的内积

类似的，微分df和矩阵导数 $\frac{\partial f}{\partial X}$ (标量对矩阵的导数):
$df=\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{\partial{f}}{\partial{X_{ij}}}dX_{ij}=tr((\frac{\partial{f}}{\partial{X}})^TdX)$

tr表示矩阵的迹(tarce),是方阵对角线元素之和,满足性质：对尺寸相同的矩阵A,B有
$tr(A^TB)=\sum_{i,j}A_{ij}B{ij}$
举个例子理解下

常用的微分的运算法则：

$d(X\pm Y)=dX\pm dY$
$d (X Y) = (d X) Y + X d Y$
$d(X^T) = dX^T$
$d t r (X) = t r (d X)$
$dX^{-1}=-X^{-1}dXX^{-1}$ 可由 $XX^{-1}=I)$ 求微分证明
行列式 $d|X|=tr(X^*dX)$ 其中 $X^*$ 表示 $X$ 的伴随矩阵，在X可逆时可以写成 $d|X|=|X|tr(X^{-1}dX)$ 此式可以用laplace展开证明
逐元素乘法： $d(X\odot Y)=(dX)\odot Y+X\odot dY$ 其中 $\odot$ 表示尺寸相同的矩阵X,Y进行元素乘法
逐元素函数 $d\sigma(X)=\sigma'(X)\odot dX$ 其中 $\sigma(X)=[\sigma(X_{i,j})]$ 是逐元素标量函数计算， $\sigma'(X)=[\sigma'(X_{i,j})]$ 是逐元素标量导数计算

逐元素是指针对矩阵单个元素求函数值或者求导
$X=[x_1,x_2]$ ， $d(sinX)=[\cos x_1dx_1,\cos x_2dx_2]=\cos X\odot dX$

迹技巧

标量套上迹： $a = t r (a)$
转置： $tr(A^T)=tr(A)$
线性： $tr(A\pm B)=tr(A)\pm tr(B)$
矩阵乘法交换： $t r (A B) = t r (B A)$ ，假设 $A_{m,n}$ 与 $B_{n,m}$ ,则有 $(AB)_{ii}=\sum_{i=1}^na_{ij}*b_{ji}$ $tr(AB)=\sum_{i=1}^m(\sum_{j=1}^na_{ij}*b_{ji})=\sum_{i=1}^n(\sum_{j=1}^mb_{ij}*a_{ji})=tr(BA)$
矩阵乘法/逐元素乘法交换： $tr(A^T(B \odot C))=tr((A \odot B)^TC)$ 其中ABC尺寸相同都为mxn，两侧都等于 $\sum_{i,j}A_{ij}B_{ij}C_{ij}$
【089】深度学习读书笔记：P29证明迹Tr(AB)=Tr(BA)

4.2 三层神经网络反向传播推导

#正向传播

Z_1 = np.dot(W_1.T,X) + b_1    # 维度N1*M ,N1表示第一隐层的神经元数
A_1 = sigmoid(Z_1)             # 维度N1*M
 
Z_2 = np.dot(W_2.T,A_1) + b_2  # 维度N2*M ,N2表示输出层的神经元数
A_2 = sigmoid(Z_2)             # 维度N2*M ,本例中N2=1
 
L = cross_entropy(A_2,Y)       # 标量

矩阵形式的损失函数 $L=(-(Y\odot log(A_2))-((1-Y)\odot log(1-A_2))I$
这里矩阵I是个全为1的(M,1)的矩阵，作用于前面(1,M)的损失求和

求微分dL，由 $d (X Y) = (d X) Y + X d Y$ 以及 $d(X\odot Y)=(dX)\odot Y+X\odot dY$ 得
$dL=-(dY\odot log(A_2)+Y\odot dlog(A_2)+d(1-Y)\odot log(1-A_2)+(1-Y)\odot dlog(1-A_2))I$
常数矩阵的微分为0矩阵，同时 $dlog(A_2)=\frac{1}{A_2}\odot dA_2$ 代入得
$dL=-(Y\odot \frac{1}{A_2}\odot dA_2-(1-Y)\odot \frac{1}{1-A_2}\odot dA_2)I$
$dL=(\frac{A_2-Y}{A_2\odot(1-A_2)}\odot dA_2)$
继续对 $A_2$ 和 $Z_2$ 微分，就出现了 $dW_2$
$dA_2=A_2\odot (1-A_2)\odot dZ_2$
$dZ_2=d(W_2^T)A_1+W_2^TdA_1+db_2$
这里的 $A_1$ 、 $W_2$ 和 $b_2$ 都是变量。将 $dA_2$ 带入 $d L$ 得
$dL=((A_2-Y)\odot dZ_2)I$
$dL=((A_2-Y)\odot [d(W_2^T)]A_1+(A_2-Y)\odot[W_2^TdA_1]+(A_2-Y)\odot db_2)I$

接下来使用迹技巧将 $d W$ 换到最右侧
$dL=tr(dL)=tr(((A_2-Y)\odot dZ_2)I)$
因为 $(A_2-Y)\odot dZ_2$ 与 $I^T$ 尺寸相同，所以有
$dL=tr(dL)=tr(((A_2-Y)\odot dZ_2)I)=tr(I((A_2-Y)\odot dZ_2))=tr((I^T)^T((A_2-Y)\odot dZ_2))$
由法则 $tr(A^T(B \odot C))=tr((A \odot B)^TC)$ 得：
$dL=tr((I^T)^T((A_2-Y)\odot dZ_2))=tr([(I^T)\odot (A_2-Y)]^TdZ_2)$
由 $dL=tr((\frac{\partial L}{\partial {Z_2}})^TdZ_2)$ 比较上式得出：
$\frac{\partial L}{\partial {Z_2}}=(I^T)\odot (A_2-Y)=A_2-Y$
所以 $dZ_2=A_2-Y$

矩阵求导与矩阵微分

神经网络的反向传播算法中矩阵的求导方法

未完待续…

得克特

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度学习（二）梯度推导

梯度规则利用微分求梯度的方法计算量太大，而误差反向传播算法的出现提高了计算效率，误差反向传播算法主要基于链式法则,主要有以下几条规则。1.如果是由a + b = y，则反向传播时a b 的梯度相等，且等于y的梯度2.如果是a * b = y，则反向传播时a b 的梯度分别为b a，如果是矩阵运算会涉及到矩阵转换3.复杂的计算可以拆解成简单的元运算来计算梯度我们以全连接为例：y = xw + b首先拆解为xw 和 b，按照上述原则，假设y的梯度为1，x*w 和 b的梯度等于y处的梯度也为1，x
复制链接

扫一扫