一些矩阵向量求导的例子

最新推荐文章于 2022-08-16 23:03:19 发布

qq_40723803

最新推荐文章于 2022-08-16 23:03:19 发布

阅读量442

点赞数

分类专栏：深度学习的数学基础文章标签：深度学习线性代数神经网络

本文链接：https://blog.csdn.net/qq_40723803/article/details/105288075

版权

一些矩阵向量求导的例子

全部公式的推导基于矩阵求导公式

(\frac{\partial Y}{\partial X})^T dX)

和矩阵求导的微分法，属于标量对矩阵/向量的求导法则范畴

1.（单样本）多元logistic回归–softmax回归（一）

二元 logistic 和多元 logistic 的区别，参数是向量 $w$ 还是矩阵 $W$
$=-\boldsymbol y^T \log (softmax (W \boldsymbol x))，求\frac{\partial l}{\partial W}$
其中：
$\begin{aligned} & softmax(\boldsymbol a) = \frac{\exp(\boldsymbol a)}{\mathbf 1^T \exp(\boldsymbol a)} = \frac{\exp(\boldsymbol a)}{\sum_{\exp(\boldsymbol a)}} ，分母是个标量\\ & \log\frac{\boldsymbol u}{c} = \log(\boldsymbol u) - \mathbf 1 \log(c)，c是标量，\boldsymbol u是向量，向量\mathbf 1和\boldsymbol u同型，实质是对向量的逐元素运算\\ & \boldsymbol y^T \mathbf 1=1，是向量的内积\\ & \mathbf 1^T (\boldsymbol u \odot \boldsymbol v) = \boldsymbol u^T \boldsymbol v ，哈达玛积转换为向量内积 \end{aligned}\\$
对损失 $l$ 的变换：
$\begin{aligned} l & = -\boldsymbol y^T \log\frac{\exp (W \boldsymbol x)}{\mathbf 1^T \exp(W \boldsymbol x)}\\ & = -\boldsymbol y^T \Big[\log (\exp (W \boldsymbol x)) - \mathbf 1 \log (\mathbf 1^T \exp (W \boldsymbol x)) \Big]\\ & = -\boldsymbol y^T \log (\exp (W \boldsymbol x)) + \boldsymbol y^T \mathbf 1 \log (\mathbf 1^T \exp (W \boldsymbol x))\\ & = -\boldsymbol y^T W \boldsymbol x+\log (\mathbf 1^T \exp (W \boldsymbol x))\\ \end{aligned}$
因为 $l$ 是标量，所以 $t r (l) = l ， d t r (l) = t r (d l)$ ，对 $W$ 进行微分：
$\begin{aligned} dl & = -\boldsymbol y^T d (W) \boldsymbol x + \frac{d\Big[\mathbf 1^T \exp (W \boldsymbol x) \Big]} {\mathbf 1^T \exp (W \boldsymbol x)}，分母是标量\\ & = -\boldsymbol y^T d W \boldsymbol x + \frac{\mathbf 1^T d[\exp (W \boldsymbol x)] } {\mathbf 1^T \exp (W \boldsymbol x)}\\ & = -\boldsymbol y^T d W \boldsymbol x + \frac{\mathbf 1^T (\exp (W \boldsymbol x) \odot(d W \boldsymbol x))} {\mathbf 1^T \exp (W \boldsymbol x)}\\ & = -\boldsymbol y^T d W \boldsymbol x + \frac{\exp (W \boldsymbol x)^T (d W \boldsymbol x)} {\mathbf 1^T \exp (W \boldsymbol x)}，哈达玛积转换为向量内积\\ \end{aligned}$
微分的迹变换：
$\begin{aligned} dl & = tr \Big(-\boldsymbol y^T d W \boldsymbol x + \frac{\exp (W \boldsymbol x)^T (d W \boldsymbol x)} {\mathbf 1^T \exp (W \boldsymbol x)} \Big)\\ & = tr (-\boldsymbol y^T d W \boldsymbol x ) + tr \Big( \frac{\exp (W \boldsymbol x)^T (d W \boldsymbol x)} {\mathbf 1^T \exp (W \boldsymbol x)} \Big)\\ & = tr(- \boldsymbol x \boldsymbol y^T d W) + tr\Big (softmax(W \boldsymbol x)^T(dW \boldsymbol x) \Big)\\ & = tr(- \boldsymbol x \boldsymbol y^T d W) + tr\Big ( \boldsymbol xsoftmax(W \boldsymbol x)^T dW \Big)\\ & = tr\Big ( \boldsymbol x[softmax(W \boldsymbol x)^T - \boldsymbol y^T]dW \Big)\\ & = tr\Big( (\frac{\partial l}{\partial W} )^T dW \Big) \end{aligned}$
所以 $\frac{\partial l}{\partial W} = \Big ( \boldsymbol x[softmax(W \boldsymbol x)^T - \boldsymbol y^T] \Big)^T = [softmax(W \boldsymbol x)- \boldsymbol y] \boldsymbol x^T$

$\qquad$

2.（单样本）带有一个隐藏层的神经网络–softmax回归（二）

$\begin{aligned} \boldsymbol{z}_{p,1}^{(1)} & = & W_{p,n}^{(1)} \boldsymbol{x}_{n,1} + \boldsymbol{b}_{p,1}^{(1)}\\ \boldsymbol{a}_{p,1}^{(1)} & = & h(\boldsymbol{z}^{(1)}) \\ \boldsymbol{z}_{q,1}^{(2)} & = & W_{q,p}^{(2)}\boldsymbol{a}^{(1)} + \boldsymbol{b}_{q,1}^{(2)} \\ \boldsymbol{a}_{q,1}^{(2)} & = & g(\boldsymbol{z}^{(2)}) \\ l= l(W^{(1)},W^{(2)},b^{(1)}, b^{(2)}) & = & -\boldsymbol{y}^T \ln \boldsymbol{a}^{(2)} \\ \end{aligned}$
$\boldsymbol{x}_{n,1}$ 为输入的单个样本，有 $n$ 个特征，最后输出 $q$ 个类别的预测概率， $n, p, q$ 分别为输入层、隐藏层、输出层的神经元个数， $h 、 g$ 分别为两个激活函数，Latex 公式的第二个&是右对齐

求 $\frac{\partial l}{\partial W^{(1)}}、\frac{\partial l}{\partial \boldsymbol b^{(1)}}、\frac{\partial l}{\partial W^{(2)}}、\frac{\partial l}{\partial \boldsymbol b^{(2)}}$

2.1 误差反向传播到倒数第一层，求第一个误差 $\boldsymbol \delta^{(2)}$

$\boldsymbol \delta^{(2)} = \frac{\partial l}{\partial \boldsymbol z^{(2)}}$
对 $\boldsymbol{a}^{(2)}$ 求微分：
$-\boldsymbol{y}^T d(\ln \boldsymbol{a}^{(2)}) \ 激活函数h不确定，log的对象是向量，不会求微分！！$
若确定 $g$ 为softmax激活函数，神经网络为softmax回归的两层网络实现（多变换一次），则根据上个问题的求解，
$\begin{aligned} l &= -\boldsymbol{y}^T \log softmax(\boldsymbol z^{(2)}) \\ &= -\boldsymbol{y}^T \log \frac{\exp(\boldsymbol z^{(2)})}{\mathbf 1^T \exp(\boldsymbol z^{(2)})} \\ & = -\boldsymbol y^T \Big[\log (\exp (\boldsymbol z^{(2)})) - \mathbf 1 \log (\mathbf 1^T \exp (\boldsymbol z^{(2)})) \Big] \\ & = -\boldsymbol y^T \log (\exp (\boldsymbol z^{(2)})) + \boldsymbol y^T \mathbf 1 \log (\mathbf 1^T \exp (\boldsymbol z^{(2)})) \\ &= -\boldsymbol y^T \boldsymbol z^{(2)} + \log (\mathbf 1^T \exp (\boldsymbol z^{(2)}))，参见多元logistic（一）的l的推导\\ \end{aligned}$
要求 $\frac{\partial l}{\partial \boldsymbol z^{(2)}}$ ，先对 $\boldsymbol z^{(2)}$ 求微分：
$\begin{aligned} dl &= tr(- \boldsymbol y d \boldsymbol z^{(2)} + \frac{\mathbf 1^T (\exp (\boldsymbol z^{(2)}) \odot d \boldsymbol z^{(2)}) } {\mathbf 1^T \exp (\boldsymbol z^{(2)})} ) \\ &= tr(-\boldsymbol{y}^T d \boldsymbol z^{(2)} + \frac{\exp (\boldsymbol z^{(2)})^T d \boldsymbol z^{(2)} } {\mathbf 1^T \exp (\boldsymbol z^{(2)})} ) \\ &= tr(-\boldsymbol{y}^T d \boldsymbol z^{(2)}) + tr(softmax(\boldsymbol z^{(2)})^T d \boldsymbol z^{(2)}) \\ &= tr \Big((softmax(\boldsymbol z^{(2)})^T - \boldsymbol{y}^T) d \boldsymbol z^{(2)} \Big) \\ \end{aligned}$
所以
$\begin{aligned} \boldsymbol \delta^{(2)} = \frac{\partial l}{\partial \boldsymbol z^{(2)}} & = (softmax(\boldsymbol z^{(2)})^T - \boldsymbol{y}^T)^T \\ & = softmax(\boldsymbol z^{(2)}) - \boldsymbol{y}\\ \end{aligned}$
其中， $softmax(\boldsymbol z^{(2)})^T = (softmax\boldsymbol z^{(2)})^T$

接下来使用复合法则，通过 $\frac{\partial l}{\partial \boldsymbol z^{(2)}}$ 求 $\frac{\partial l}{\partial W^{(2)}}$

最低0.47元/天解锁文章

qq_40723803

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一些矩阵向量求导的例子

1.（单样本）多元logistic回归l=−yTlog⁡(softmax(Wx))，求∂l∂W其中：softmax(a)=exp⁡(a)1Texp⁡(a)=exp⁡(a)∑exp⁡(a)，分母是个标量log⁡uc=log⁡(u)−1log⁡(c)，c是标量，u是向量，向量1和u同型，实质是对向量的逐元素运算yT1=1，是向量的内积1T(u⊙v)=uTv，克罗内克积转换为矩阵乘法l =-\bol...
复制链接

扫一扫