【机器学习中的矩阵求导】（二）矩阵向量求导（定义法）

最新推荐文章于 2023-05-08 20:34:16 发布

山顶夕景

最新推荐文章于 2023-05-08 20:34:16 发布

阅读量1.2k

点赞数 2

分类专栏：数学math 文章标签：矩阵论机器学习

本文链接：https://blog.csdn.net/qq_35812205/article/details/121591087

版权

数学math 专栏收录该内容

36 篇文章 37 订阅

订阅专栏

学习总结

（1）三种情况：标量对向量求导，标量对矩阵求导, 以及向量对向量求导。
下文，其中的标量对向量，标量对矩阵求导，这里以分母布局为默认布局；向量或矩阵对标量求导的场景很少见。

（2）机器学习算法中一般会使用一种叫混合布局的思路，即如果是向量或者矩阵对标量求导，则使用分子布局为准，如果是标量对向量或者矩阵求导，则以分母布局为准。对于向量对对向量求导，有些分歧，后面统一以分子布局的雅克比矩阵为主。

一、回顾知识

假设： $x$ 表示标量； $X$ 表示m×n维的矩阵；求导的因变量用 $y$ 表示标量； $Y$ 表示 $p \times q$ 维矩阵

自变量/因变量	标量 $y$	列向量 $\mathbf{y}$	矩阵 $\mathbf{Y}$
标量 $x$	/	$\frac{\partial \mathbf{y}}{\partial x}$ 分子布局：m维列向量（默认布局）分母布局：m维行向量	$\frac{\partial \mathbf{Y}}{\partial x}$ 分子布局：p×q（默认布局）分母布局：q×p
列向量 $\mathbf{x}$	$\frac{\partial {y}}{\partial \mathbf{x}}$ 分子布局：n维行向量（默认布局）分母布局：n维列向量	$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ 分子布局：m×n雅克比矩阵（默认布局）分母布局：n×m梯度矩阵	/
矩阵 $\mathbf{X}$	$\frac{\partial y}{\partial \mathbf{X}}$ 分子布局：n×m矩阵分母布局：m×n矩阵（默认布局）

二、用定义法求解标量对向量求导

$\frac{\partial y}{\partial \mathbf{x}}$
给定一个实值函数 $f:R^n \rightarrow R$ ，求其对自变量n维向量 $\mathbf{x}$ 的导数。即变量对向量里的每个分量分别求导，得到的结果依次组成新向量表示。

【例题1】

$y=\mathbf{a}^{T} \mathbf{x}$ 求解 $\frac{\partial \mathbf{a}^{T} \mathbf{x}}{\partial \mathbf{x}}$ 对 $\mathbf{x}$ 的每个分量分别求导（分别为标量对标量求导），结果为向量 $\mathbf{a}$ 的第i个分量：
$\frac{\partial \mathbf{a}^{T} \mathbf{x}}{\partial x_{i}}=\frac{\partial \sum_{j=1}^{n} a_{j} x_{j}}{\partial x_{i}}=\frac{\partial a_{i} x_{i}}{\partial x_{i}}=a_{i}$

因为是分母布局，所以求导与分母维度相同，即最后求导结果的分量，组成一个和 $\mathbf{x}$ 一样的n维向量，即向量 $a$ ：
$\frac{\partial \mathbf{a}^{T} \mathbf{x}}{\partial \mathbf{x}}=\mathbf{a}$
【小练习1】
用定义法推导： $\frac{\partial \mathbf{x}^{T} \mathbf{x}}{\partial \mathbf{x}}=2 \mathbf{x}$
这个和刚才一样，先对 $\mathbf{x}$ 的每个分量进行求导：
$\frac{\partial \mathbf{x}^{T} \mathbf{x}}{\partial x_{i}}=\frac{\partial \sum_{j=1}^{n} x_{j} x_{j}}{\partial x_{i}}=\frac{\partial x_{i} x_{i}}{\partial x_{i}}=2{x}$
最后各个分量组成一个向量 $\mathbf{x}$ 。

【例题2】

$y=\mathbf{x}^{T} \mathbf{A} \mathbf{x}$ 求解 $\frac{\partial \mathbf{x}^{T} \mathbf{A} \mathbf{x}}{\partial \mathbf{x}}$
做法：
$\frac{\partial \mathbf{x}^{T} \mathbf{A} \mathbf{x}}{\partial x_{k}}=\frac{\partial \sum_{i=1}^{n} \sum_{j=1}^{n} x_{i} A_{i j} x_{j}}{\partial x_{k}}=\sum_{i=1}^{n} A_{i k} x_{i}+\sum_{j=1}^{n} A_{k j} x_{j}$
对于上面结果：

第一部分：矩阵 $\mathbf{A}$ 的第k列转置后和 $x$ 相乘；
第二部分：矩阵 $\mathbf{A}$ 的第k行和 $x$ 相乘；

最后排列好各个分量的结果：
$\frac{\partial \mathbf{x}^{T} \mathbf{A} \mathbf{x}}{\partial \mathbf{x}}=\mathbf{A}^{T} \mathbf{x}+\mathbf{A} \mathbf{x}$

小结：例2的较复杂的实值函数求导，最终排列出的求导结果较为复杂。

三、标量对向量求导

寻找较复杂的实值函数求导更方便的方法，不是每次都先针对任意一个分量，再进行排列。

标量对向量求导的基本法则（PS：和我们以前标量对标量求导的法则类似）：

常量对向量的求导结果为0
线性法则：如果 $f$ 、 $g$ 都是实值函数， $c 1$ 、 $c 2$ 为常数，则： $\frac{\partial\left(c_{1} f(\mathbf{x})+c_{2} g(\mathbf{x})\right.}{\partial \mathbf{x}}=c_{1} \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}+c_{2} \frac{\partial g(\mathbf{x})}{\partial \mathbf{x}}$
乘法法则：如果 $f$ 、 $g$ 都是实值函数，则： $\frac{\partial f(\mathbf{x}) g(\mathbf{x})}{\partial \mathbf{x}}=f(\mathbf{x}) \frac{\partial g(\mathbf{x})}{\partial \mathbf{x}}+\frac{\partial f(\mathbf{x})}{\partial \mathbf{x}} g(\mathbf{x})$ 如果不是实值函数，则不能这样用乘法法则。
除法法则：如果 $f$ 、 $g$ 都是实值函数，且 $g (x) \neq = 0$ ，则： $\frac{\partial f(\mathbf{x}) / g(\mathbf{x})}{\partial \mathbf{x}}=\frac{1}{g^{2}(\mathbf{x})}\left(g(\mathbf{x}) \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}-f(\mathbf{x}) \frac{\partial g(\mathbf{x})}{\partial \mathbf{x}}\right)$

PS：标量对矩阵求导，也有类似上面的法则。

四、标量对矩阵求导

【栗子】
$y=\mathbf{a}^{T} \mathbf{X} \mathbf{b}$
求解 $\frac{\partial \mathbf{a}^{T} \mathbf{X b}}{\partial \mathbf{X}}$

$\mathbf{a}$ 是m维向量， $\mathbf{b}$ 是n维向量， $\mathbf{X}$ 是m×n的矩阵。
先对矩阵 $\mathbf{X}$ 的任意一个位置的 $X_{i j}$ 求导：
$\frac{\partial \mathbf{a}^{T} \mathbf{X} \mathbf{b}}{\partial X_{i j}}=\frac{\partial \sum_{p=1}^{m} \sum_{q=1}^{n} a_{p} X_{p q} b_{q}}{\partial X_{i j}}=\frac{\partial a_{i} X_{i j} b_{j}}{\partial X_{i j}}=a_{i} b_{j}$
求导结果再 $(i, j)$ 位置的结果： $\mathbf{a}$ 向量第 $i$ 个分量和 $\mathbf{b}$ 第 $j$ 个分量的乘积，将所有的位置的求导结果排列成一个m×n的矩阵，即 $\mathbf{a} \mathbf{b}^{T}$ ，即结果为： $\frac{\partial \mathbf{a}^{T} \mathbf{X} \mathbf{b}}{\partial \mathbf{X}}=a b^{T}$

五、向量对向量求导

$\mathbf{y} = \mathbf{A} \mathbf{x}$ 是向量。

$\mathbf{A}$ 为n×m矩阵
$\mathbf{x}$ 为m维向量； $\mathbf{y}$ 为n维向量
先分别求【矩阵的第 $i$ 行和向量的内积】对向量的第 $j$ 分量求导，定义法： $\frac{\partial \mathbf{A}_{\mathbf{i}} \mathbf{x}}{\partial \mathbf{x}_{\mathbf{j}}}=\frac{\partial A_{i j} x_{j}}{\partial \mathbf{x}_{\mathbf{j}}}=A_{i j}$
所以结果是矩阵 $\mathbf{A}$ 的 $(i, j)$ 位置的值，排列组成的结果 $\mathbf{A}$ ，而非 $\mathbf{A}^{T}$ 。

六、定义法矩阵向量求导的缺点

定义法中间运算复杂，结果排列较为麻烦，如 $y=\mathbf{a}^{T} \exp (\mathbf{X} \mathbf{b})$ 对任意标量的求导容易，但是排列起来较为麻烦，所以进一步，我们可以使用矩阵微分和迹函数来进行矩阵向量求导。

Reference

（1）https://www.cnblogs.com/pinard/p/10773942.html
（2）矩阵求导知识点总结：https://www.cnblogs.com/gyhhaha/p/11782212.html

山顶夕景

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
【机器学习中的矩阵求导】（二）矩阵向量求导（定义法）

学习总结（1）三种情况：标量对向量求导，标量对矩阵求导, 以及向量对向量求导。下文，其中的标量对向量，标量对矩阵求导，这里以分母布局为默认布局；向量或矩阵对标量求导的场景很少见。（2）机器学习算法中一般会使用一种叫混合布局的思路，即如果是向量或者矩阵对标量求导，则使用分子布局为准，如果是标量对向量或者矩阵求导，则以分母布局为准。对于向量对对向量求导，有些分歧，后面统一以分子布局的雅克比矩阵为主。文章目录学习总结一、回顾知识二、用定义法求解标量对向量求导【例题1】【例题2】三、标量对向量求导四、标量对
复制链接

扫一扫