（《机器学习》完整版系列）附录 ——5、含矩阵的偏导数

人工干智能

已于 2023-03-31 11:25:26 修改

阅读量307

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：矩阵线性代数机器学习

于 2023-02-27 13:01:54 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129239399

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 27 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

讨论了如下含矩阵的偏导数：
迹的偏导数偏导数中的“分子”为标量，“分母”为矩阵
偏导数中的“分子”为矩阵，“分母”为标量
偏导数中的“分子”“分母”均为矩阵（或一矩阵一向量）

含矩阵的偏导数

式(A51)中，我们考虑 $\boldsymbol{y}$ 退化为标量 $y$ 、 $\boldsymbol{x}$ 进化为矩阵 $\mathbf{X}$ 时的情形。

（1）迹的偏导数

迹由式(A33)定义，它是自变量为矩阵的标量函数，与其相关的偏导数公式有【西瓜书附录式(A.25) $\,\thicksim$ (A.29)】。
例如：

$\begin{align} \frac{\partial \mathrm{tr}\,(\mathbf{AB})}{\partial a_{ij}} & = \frac{\partial \mathrm{tr}\, \left( [\sum_{k=1}^na_{sk}b_{kt}] \right)}{\partial a_{ij}}\qquad \text{（由式(A15)）}\notag \\ & = \frac{\partial \sum_{s=1}^n [\sum_{k=1}^na_{sk}b_{ks}] }{\partial a_{ij}}\qquad \text{（由式(A33)）}\notag \\ & = \frac{\partial (a_{ij}b_{ji}+ \mathop{\sum\sum}_{\substack{(s\neq i)\vee (k\neq j)}}a_{sk}b_{ks}) }{\partial a_{ij}}\notag \\ & =b_{ji}\tag{A76} \end{align}$
即为【西瓜书附录式(A.25)】。

$\begin{align} \frac{\partial \mathrm{tr}\,(\mathbf{AB})}{\partial \mathbf{A}} & =\left( \left[ \frac{\partial \mathrm{tr}\,(\mathbf{AB})}{\partial a_{ij}} \right] \right) \qquad \text{（由前述“穿外套”方法）}\notag \\ & =\left( [b_{ji}] \right)\qquad \text{（由式(A76)）}\notag \\ & ={\mathbf{B}}^\mathrm{T} \tag{A77} \end{align}$
即为【西瓜书附录式(A.26)】，若令 $\mathbf{B}$ 为 $\mathbf{I}$ ，即得到【西瓜书附录式(A.28)】。

仿上述推导过程即可推导【西瓜书附录式(A.29)】。

在【西瓜书附录式(A.29)】中令 $\mathbf{B}=\mathbf{I}$ ，则
$\begin{align*} \frac{\partial \mathrm{tr}\,(\mathbf{A}^\mathrm{T}\mathbf{A})}{\partial \mathbf{A}} =2\mathbf{A} \end{align*}$
又
$\begin{align*} \mathrm{tr}\,(\mathbf{A}\mathbf{A}^\mathrm{T}) =\mathrm{tr}\,(\mathbf{A}^\mathrm{T}\mathbf{A}) \qquad\text{（由【西瓜书附录式(A.7)】）} \end{align*}$
即得【西瓜书附录式(A.30)】）

下面我们看一个常见的错误推导：
$\begin{align*} \frac{\partial \mathrm{tr}\,(\mathbf{AB}\mathbf{A}^\mathrm{T})}{\partial \mathbf{A}} & =\frac{\partial \mathrm{tr}\,(\mathbf{A}(\mathbf{B}\mathbf{A}^\mathrm{T}))}{\partial \mathbf{A}} \\ & =(\mathbf{B}\mathbf{A}^\mathrm{T})^\mathrm{T}\qquad\text{（由【西瓜书附录式(A.26)】）} \\ & =\mathbf{A}\mathbf{B}^\mathrm{T} \end{align*}$
与【西瓜书附录式(A.29)】比较，右边只是其中的一部分，那错在哪里？【西瓜书附录式(A.26)】中的 $\mathbf{B}$ 与 $\mathbf{A}$ 无关，故不能用 $(\mathbf{B}\mathbf{A}^\mathrm{T})$ 代入公式中的 $\mathbf{B}$ 。

（2）偏导数中的“分子”为标量，“分母”为矩阵
$\begin{align} \frac{\partial {y}}{\partial \mathbf{A}} \tag{A78} \end{align}$
通过列向量化（将矩阵的列逐列向下拼接形成的长向量）将矩阵变为向量，再用式(A43)的方式得到其偏导数，再将该偏导数向量变换回矩阵，该矩阵即是由【西瓜书附录式(A.19)】所定义。

有时，“分子”看起来是矩阵，其实是标量，如 $\mathrm{tr}\mathbf{A}$ ，【西瓜书附录式(A.28)】：
$\begin{align} \frac{\partial \mathrm{tr}\mathbf{A}}{\partial \mathbf{A}}=\mathbf{I} \tag{A79} \end{align}$
其中， $\mathbf{I}$ 的大小与方阵 $\mathbf{A}$ 相同，即为 $n$ 阶。

再如：
$\begin{align} \frac{\partial \mathrm{tr}(\mathbf{B}\mathbf{A}^{-1})}{\partial \mathbf{A}}=-(\mathbf{A}^{-1}\mathbf{B}\mathbf{A}^{-1})^{\mathrm{T}} \tag{A80} \end{align}$
$\begin{align} \frac{\partial |\mathbf{A}|}{\partial \mathbf{A}}=|\mathbf{A}|\mathbf{A}^{-\mathrm{T}} \tag{A81} \end{align}$
注： $\mathbf{A}^{-\mathrm{T}}$ 表示 $(\mathbf{A}^{-1})^{\mathrm{T}}$ ， $|\mathbf{A}|$ 为行列式，这两公式的证明需要用到较深的矩阵知识，本博直接引用不作推导。

（3）偏导数中的“分子”为矩阵，“分母”为标量

该偏导数也是矩阵，由【西瓜书附录式(A.18)】所定义，也可以通过矩阵的列向量化方式去定义。

例如【西瓜书附录式(A.24)】：
$\begin{align} \frac{\partial \mathbf{A}^{-1}}{\partial x}=-\mathbf{A}^{-1} \frac{\partial \mathbf{A}}{\partial x}\mathbf{A}^{-1} \tag{A82} \end{align}$

（4）偏导数中的“分子”“分母”均为矩阵（或一矩阵一向量）

式(A43)定义了偏导数中的“分子”“分母”均为向量的情形，但当其一或二者都升级为矩阵时，则很复杂，本博不作讨论，仅列举简单几例说明。
$\begin{align} \frac{\partial \mathbf{A}}{\partial \mathbf{A}}=\mathbf{I} \tag{A83} \end{align}$
其中， $\mathbf{I}$ 为 $n^2$ 阶的单位矩阵（即大小为 $n^2\times n^2$ ，其中 $n$ 为方阵 $\mathbf{A}$ 的阶）。比较它与式(A79)的 $\mathbf{I}$ ，两单位矩阵大小不一样。

又
$\begin{align} \frac{\partial \mathbf{A}^{-1}}{\partial \mathbf{A}}=-\mathbf{A}^{-\mathrm{T}} \otimes \mathbf{A}^{-1} \tag{A84} \end{align}$
注： $\otimes$ 表示Kronecker积，两 $n$ 阶矩阵的Kronecker积 $\mathbf{A}\otimes \mathbf{B}$ 的大小为 $n^2$ 阶，其证明需要用到较深的矩阵知识，本博直接引用不作推导。

（5）偏导数的链式法则

链式法则式(A58)、式(A59)，是基于向量而不是矩阵推导的，当变量为矩阵时，情况如何？

1）自变量为矩阵的复合函数，当中间变量为标量时，关于矩阵的函数的偏导数链式法则成立。
$\begin{align} \frac{\partial z}{\partial \mathbf{A}} =\frac{\partial {y}}{\partial \mathbf{A}} \frac{\partial z}{\partial {y}} \tag{A85} \end{align}$
例如（中间变量 $|\mathbf{A}|$ 为标量）
$\begin{align} \frac{\partial |\mathbf{A}|^{-\frac{1}{2}}}{\partial \mathbf{A}} & =\frac{\partial |\mathbf{A}|}{\partial \mathbf{A}}\frac{\partial |\mathbf{A}|^{-\frac{1}{2}}}{\partial |\mathbf{A}|}\notag \\ & ={-\frac{1}{2}}|\mathbf{A}|^{-\frac{1}{2}-1}\frac{\partial |\mathbf{A}|}{\partial \mathbf{A}}\notag \\ & ={-\frac{1}{2}}|\mathbf{A}|^{-\frac{1}{2}-1}|\mathbf{A}|\mathbf{A}^{-\mathrm{T}} \qquad \text{（由式(A81)）}\notag \\ & ={-\frac{1}{2}}|\mathbf{A}|^{-\frac{1}{2}}\mathbf{A}^{-\mathrm{T}} \tag{A86} \end{align}$

2）自变量为矩阵的复合函数，当中间变量不为标量时，链式法则不成立。

我们用链式法则试试一例:

$\begin{align} \frac{\partial \boldsymbol{a}^{\mathrm{T}}\mathbf{A}^{-1}\boldsymbol{a}}{\partial \mathbf{A}} & =\frac{{\partial \mathbf{A}^{-1}}}{{\partial \mathbf{A}}}\frac{\partial \boldsymbol{a}^{\mathrm{T}}\mathbf{A}^{-1}\boldsymbol{a}}{\partial \mathbf{A}^{-1}}\quad \text{（试用链式法则）}\tag{A87} \\ & =\frac{{\partial \mathbf{A}^{-1}}}{{\partial \mathbf{A}}}\frac{\partial \mathrm{tr}(\boldsymbol{a}^{\mathrm{T}}\mathbf{A}^{-1}\boldsymbol{a})}{\partial \mathbf{A}^{-1}}\quad \text{（标量的迹）}\notag \\ & =\frac{{\partial \mathbf{A}^{-1}}}{{\partial \mathbf{A}}}\frac{\partial \mathrm{tr}(\mathbf{A}^{-1}\boldsymbol{a}\boldsymbol{a}^{\mathrm{T}})}{\partial \mathbf{A}^{-1}}\quad \text{（由【西瓜书附录式(A.8)】）}\notag \\ & =\frac{{\partial \mathbf{A}^{-1}}}{{\partial \mathbf{A}}}{(\boldsymbol{a}\boldsymbol{a}^{\mathrm{T}})^{\mathrm{T}}}\quad \text{（由【西瓜书附录式(A.26)】）}\notag \\ & =-\mathbf{A}^{-\mathrm{T}} \otimes \mathbf{A}^{-1}{(\boldsymbol{a}\boldsymbol{a}^{\mathrm{T}})}\quad \text{（由式(A84)）} \tag{A88} \end{align}$
又
$\begin{align} \frac{\partial \boldsymbol{a}^{\mathrm{T}}\mathbf{A}^{-1}\boldsymbol{a}}{\partial \mathbf{A}} & =\frac{\partial \mathrm{tr}(\boldsymbol{a}^{\mathrm{T}}\mathbf{A}^{-1}\boldsymbol{a})}{\partial \mathbf{A}}\notag \\ & =\frac{\partial \mathrm{tr}(\boldsymbol{a}\boldsymbol{a}^{\mathrm{T}}\mathbf{A}^{-1})}{\partial \mathbf{A}}\notag \\ & =-(\mathbf{A}^{-1}\boldsymbol{a}\boldsymbol{a}^{\mathrm{T}}\mathbf{A}^{-1})^{\mathrm{T}} \quad \text{（由式(A80)}\notag \\ & =-(\mathbf{A}^{-{\mathrm{T}}}\boldsymbol{a}\boldsymbol{a}^{\mathrm{T}}\mathbf{A}^{-{\mathrm{T}}}) \tag{A89} \end{align}$
显然，式(A88)不等于式(A89)，两结果矩阵的大小就不一样，说明应用链式法则的式(A87)不成立。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：4、神经网络中的梯度（链式法则的图形助记）
下一篇：6、指示函数及应用（将分段函数表达成一个式子的技术）

人工干智能

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（《机器学习》完整版系列）附录 ——5、含矩阵的偏导数

讨论了如下含矩阵的偏导数：迹的偏导数偏导数中的“分子”为标量，“分母”为矩阵偏导数中的“分子”为矩阵，“分母”为标量偏导数中的“分子”“分母”均为矩阵（或一矩阵一向量）
复制链接

扫一扫

专栏目录