矩阵向量链式法则四_机器学习

最新推荐文章于 2024-08-07 20:35:44 发布

明朝百晓生

最新推荐文章于 2024-08-07 20:35:44 发布

阅读量911

点赞数

分类专栏：人工智能

4AM_明朝百晓生

本文链接：https://blog.csdn.net/chengxf2/article/details/107490411

版权

人工智能专栏收录该内容

102 篇文章 3 订阅

订阅专栏

前言

参考文档

https://www.cnblogs.com/pinard/p/10825264.html

目录：

向量对向量的链式求导
标量对向量的链式求导
标量对多个矩阵链式求导

一向量对向量的链式求导

这里默认为分子布局，雅克比矩阵

假设

x->y->z

其中

x:[m,1]；y[n,1]; z[p,1] 向量

y:[n,1] 向量

z :[p,1] 向量

则下面等式成立

$\frac{\partial z}{\partial x} = \frac{\partial z}{\partial y} \frac{\partial y}{\partial x}$

其中

$\frac{\partial z}{\partial x} =[p,m]$ 向量

$\frac{\partial z}{\partial y} =[p,n]$ 向量

$\frac{\partial y}{\partial x} =[n,m]$ 向量

二标量对向量的链式求导

机器学习的损失函数大部分都是一个标量J

该标量对某个权重系数求导遵循分母布局

x->y->z

其中z是标量,是损失函数值

$(\frac{\partial z}{\partial x})^T = (\frac{\partial z}{\partial y})^T \frac{\partial y}{\partial x}$

其中

$(\frac{\partial z}{\partial y})^T :[1,m]$ 为标量对向量的求导,分母布局

$(\frac{\partial y}{\partial x}) :[m,n]$ 向量对向量的求导, 分子布局

$(\frac{\partial z}{\partial x})^T : [1,n]$ 标量对向量的求导，分母布局

如果是标量对更多的向量求导,比如 y_1->y_2->......->y_n->z ，则其链式求导表达式可以表示为：

因为y 都是向量，遵循第一节的分母布局，所以

$\frac{\partial z}{\partial y_1}=(\frac{\partial y_n}{\partial y_{n-1}} \frac{\partial y_{n-1}}{\partial y_{n-2}}.... \frac{\partial y_2}{\partial y_1}) ^T\frac{\partial z}{\partial y_n}$

应用例子：

最小二乘法损失函数

$J=\frac{1}{2} (Xw-y)^T(Xw-y)$

其中

X:[m,n] 为样本, n为样本维度，m为样本个数

w [n,1] : 为权重系数

z= Xw-y:[m,1]

则

$\frac{\partial J}{\partial z}= (\frac{\partial z}{\partial w})^T \frac{\partial J}{\partial z}$

其中

$\frac{\partial J}{\partial z} =z= Xw-y$ 分母布局（标量对向量求导）

$\frac{\partial z}{\partial X} =X$ 分子布局（向量对向量求导)

结果：

$\frac{\partial J}{\partial z}=X^T(Xw-y)$

三标量对多个矩阵链式求导

BP算法，CNN 里面权重系数都是矩阵。

标量对多个矩阵求导如下：(z为标量，其他都是矩阵）

输入矩阵如下

A【m,n】

W [n, n1]

Y [m,n1]= AW+B

那么如下成立：

$\frac{\partial z}{\partial W_{ij}}=tr(( \frac{\partial z}{\partial Y_{kl}} )^T(\frac{\partial Y_{kl}}{\partial W_{ij}}))$ （里面包含标量对矩阵求导,分母布局）

$=\sum_{kl}\frac{ \partial z}{ \partial Y_{kl}} \frac{ \partial Y_{kl}}{ \partial W_{ij}}$ (里面都是标量，所以可以直接用链式求导）

结果是一个[n,n1]的矩阵

其中

$\frac{ \partial Y_{kl}}{ \partial W_{ij}}$ （标量对标量的求导）

$=\frac{ \partial \sum_s A_{ks}W_{sl}}{ \partial W_{ij}}$

上面 $W_{sl}=W_{ij}$ 求导才不为0

$=A_{ki}\delta_{j}(l)$

其中

$\delta_j(l)=\left\{\begin{matrix} 1, l=j\\ 0 \end{matrix}\right.$

所以

$\frac{ \partial Y_{kl}}{ \partial W_{ij}}$

$=\sum_{kl}\frac{z}{Y_{kl}}A_{ki}\delta_{j}(l)$

$=\sum_{k}\frac{\partial z}{\partial Y_{kj}}A_{ki}$

$=A^T\frac{\partial z}{\partial Y}$ （直接写一下就可以看出来了）

出现标量的地方就出现转置，否则直接链式

明朝百晓生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。