矩阵求导方法

秃头小苏

已于 2022-06-17 09:34:51 修改

阅读量6.6k

点赞数 13

文章标签：矩阵线性代数机器学习

于 2022-06-17 09:22:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47233366/article/details/125327269

版权

矩阵求导方法

在机器学习过程中，我们经常会对矩阵进行相关的操作，现对矩阵求导方法进行概况与推导。

首先总结矩阵求导的本质，即矩阵A中每个元素对矩阵B中每个元素求导。我们先从宏观上理解这个公式，即从求导后元素的个数来理解（假设）：

1> 若矩阵A是1x1 的矩阵（即一个数），矩阵B也是1x1的矩阵，那么矩阵C元素个数为1x1=1 ；

2> 若矩阵A是nx1的矩阵，矩阵B是1x1的矩阵，那么矩阵C元素个数为nx1 ；

3> 若矩阵A是nx1的矩阵，矩阵B也是px1的矩阵，那么矩阵C为元素个数nxp ;

4>若矩阵A是nxm的矩阵，矩阵B也是pxq的矩阵，那么矩阵C为元素个数nxmxpxq ;

从上面4个小例子中相信你已经对上文提到的矩阵求导的本质有了一个初步的认识，下面具体介绍矩阵求导的方法：Y-X拉伸（或f(x)-X拉伸）。其主要方法总结为以下两点：

看到这里，是不是懵了呢，这Y-X拉伸说的是啥啊。现在通过三个例子来理解这个矩阵求导的方法。开始写例子之前，先说明以下标量和向量，简单来说，标量就是一个数，如1，2，3这种，向量可以理解为是一串数字，如（1，2，3）。

Example 1:

则为什么会是这个结果呢？我们来对照上文总结的两句话：标量不变，向量拉伸和f(x)横向拉，x纵向拉。对与这个例子，f(x)为标量，不需要变；x为向量，需要纵向拉伸，因此就成为了nx1的矩阵。再根据矩阵求导本质：矩阵A中每个元素对矩阵B中每个元素求导。那么即f(x)对x1,x2,…xn分别求导。不知道讲到这里是否明白了些，还有疑惑的可以通过下面两个例子进行理解。

Example 2:

则

同样的，我们根据标量不变，向量拉伸和f(x)横向拉，x纵向拉知道，这个例子x为标量，不需要变；f(x)为向量，需要进行横向拉伸，故得到上式。

Example 3:

这个例子可以发现f(x)和x都为向量，那么应该既要进行纵拉伸，又要进行横拉伸。不妨先固定f(x)不变（把f(x)先看出是标量），先进行纵拉伸。

则

但现在上式的每一行如中f(x)为向量，所以要把每行都进行横拉伸，结果如下：

则

相信通过上面的例子，你对矩阵的求导已经有了一定的理解，现通过上述的方法证明一些常用的矩阵求导公式。

①

已知：

则

即

②证明

已知：

这个公式的证明和①基本一致，读者可按照①中步骤自行尝试证明，这里不在过多叙述。

③证明

已知：

这题给出两条证明思路：

Th1:按照①和②的方法一步步推导，提示： 是一个数（标量），化简后

，这里也不在浪费篇幅证明，明白上述提示后，证明方法和①②* 基本一致。*

Th2:这题是对乘积求导，可以利用分部求导法（这里利用公式： )注：对公式不明白的可以查找相关资料或自行推导。

这里将X看做U, AX看着V, 则：

关注

13
点赞
踩
49

收藏

觉得还不错? 一键收藏
打赏
0
评论
矩阵求导方法

在机器学习过程中，我们经常会对矩阵进行相关的操作，现对矩阵求导方法进行概况与推导。首先总结矩阵求导的本质，即矩阵A中每个元素对矩阵B中每个元素求导。我们先从宏观上理解这个公式，即从求导后元素的个数来理解（假设）： 1> 若矩阵A是1x1 的矩阵（即一个数），矩阵B也是1x1的矩阵，那么矩阵C元素个数为1x1=1 ； 2> 若矩阵A是nx1的矩阵，矩阵B是1x1的矩阵，那么矩阵C元素个数为nx1 ； 3> 若矩阵A是nx1的矩阵，矩阵B也是px1的矩阵，那么矩阵C为元
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

秃头小苏 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。