矩阵向量求导-定义法，矩阵微分+迹函数，矩阵向量链式求导法则

最新推荐文章于 2022-10-19 12:00:09 发布

第七个bug

最新推荐文章于 2022-10-19 12:00:09 发布

阅读量1.3k

点赞数 4

分类专栏：数学

本文链接：https://blog.csdn.net/weixin_42006387/article/details/106253651

版权

数学专栏收录该内容

14 篇文章 2 订阅

订阅专栏

矩阵向量求导

摘自：https://www.cnblogs.com/pinard/p/10825264.html，并加入了自己的一丢丢想法。

说明1

在矩阵向量求导中，可以采用定义法，微分法和链式求导法。
选择：优先选择链式求导法，其次选择微分法，最后使用定义法。
无论采用哪种方法都涉及到求导布局的问题，应首先掌握求导布局。

说明2

符号约定：
- $x$ 小写字母表示标量。
- $\mathbf{x}$ 小写黑体字母表示向量（默认是列向量）。
- $X$ 大写字母表示矩阵。
求导布局约定：
1. 标量对向量求导和标量对矩阵求导均采用分母布局，保证求导的结果使得和向量或矩阵同型。
2. 向量对标量求导和矩阵对标量求导均采用分子布局，保证求导的结果使得和向量或矩阵同型。
3. 向量对向量求导采用分子布局，即雅克比式
其他约定：
- 不涉及以下求导
  1. 标量对标量求导【因为这个相比较其他的求导方式来说，简单了】
  2. 向量对矩阵的求导【遇到的不多】
  3. 矩阵对矩阵的求导【遇到的不多】
  4. 矩阵对矩阵的求导【遇到的不多】
  5. 想深入了解，请参见：https://www.cnblogs.com/pinard/p/10930902.html

1.定义法

标量对向量或对矩阵求导，采用分母布局；向量对向量求导采用分子布局。

1. 用定义法求解标量对向量求导

解决 $\frac{标量}{向量}$ 。
标量对向量的求导，其实就是标量对向量里的每个分量分别求导，最后把求导的结果排列在一起，按一个向量表示而已。那么我们可以将实值函数对向量的每一个分量来求导，最后找到规律，得到求导的结果向量
- 操作步骤：
  - 各个元素展开，并表示。【简单的元素好表示，复杂的就不怎么好表示了；这就是局限该方法的局限性】
  - 每个元素均进行求导操作。
  - 选定一种求导布局，排列好求导完各个元素的顺序。

举个例子

$\mathbf{y}=\mathbf{a}^T\mathbf{x}$ ，求解 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ 。

将标量（分子）完全展开

$\frac{\partial \mathbf{y}}{\partial x_i} =\frac{\partial \mathbf{a}^T\mathbf{x}}{x_i} =\frac{\partial \sum_{j=1}^{n} a_j x_j}{\partial x_i} =a_i$

因为采用分母布局，结果应该和分母（列向量）同型，所以
$\frac{\partial \mathbf{a}^T\mathbf{x}}{\partial \mathbf{x}}=\mathbf{a}$
同理，采用分母布局计算 $\frac{\partial \mathbf{x}^T\mathbf{a}}{\partial \mathbf{x}}$ ：
$\frac{\partial \mathbf{x}^T\mathbf{a}}{\partial \mathbf{x}}=\mathbf{a}$

$\mathbf{y}=\mathbf{x}^T\mathbf{x}$ ，求解 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ 。

将标量（分子）完全展开
$\frac{\partial \mathbf{y}}{\partial x_i} =\frac{\partial \mathbf{x}^T\mathbf{x}}{x_i} =\frac{\partial \displaystyle\sum_{j=1}^{n} x_j x_j}{\partial x_i} =2x_j$
因为采用分母布局，结果应该和分母（列向量）同型，所以
$\frac{\partial \mathbf{a}^T\mathbf{x}}{\partial \mathbf{x}}=2\mathbf{x}$

$\mathbf{y}=\mathbf{x}^T A\mathbf{x}$ ，求解 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ 。

将标量（分子）完全展开
$\frac{\partial \mathbf{x}^T A\mathbf{x}}{\partial x_k} =\frac{\partial \displaystyle \sum_{i=1}^{n}\sum_{j=1}^{n} {x_i A_{ij} x_j}}{\partial x_k} =\sum_{i=1}^{n}A_{ik}x_k+\sum_{i=j}^{n}A_{jk}x_k =A^T\mathbf{x}+A\mathbf{x}$
可以发现，这个最后写成矩阵表达形式不像上面那么简单。
- 具体操作，相乘的地方用"十"字表示。

定义法求导对于简单的实值函数是很容易的，但是复杂的实值函数就算求出了任意一个分量的导数，要排列出最终的求导结果还挺麻烦的，因此我们需要找到其他的简便一些的方法来整体求导，而不是每次都先去针对任意一个分量，再进行排列。

2.用定义法求解标量对矩阵求导

解决 $\frac{标量}{矩阵}$ 。

举个例子

$\mathbf{y}=\mathbf{a}^TX\mathbf{b}$ ，求解 $\frac{\partial \mathbf{a}^TX\mathbf{b}}{\partial X}$ 。 $X_{m*n},\mathbf{a}_{m*1},\mathbf{b}_{n*1}$

将标量（分子）完全展开
$\frac{\partial \mathbf{a}^TX\mathbf{b}}{\partial X} =\frac{\partial \displaystyle \sum_{p=1}^{m}\sum_{q=1}^{n} a_p X_{pa} b_q}{\partial X_{ij}} =\frac{\partial a_i X_{ij} b_j}{\partial X_{ij}} =a_ib_j$
采用分母布局，最终结果为 $m * n$ 的矩阵。所以有
$\frac{\partial \mathbf{a}^TX\mathbf{b}}{\partial X} =\mathbf{a}\mathbf{b}^T$

3.用定义法求解向量对向量的求导

解决 $\frac{向量}{向量}$ 。

举个例子

$\mathbf{y}=A\mathbf{x}$ ，求解 $\frac{\partial A\mathbf{x}}{\partial\mathbf{x}}$ 。 $A_{m*n},\mathbf{x}_{n*1},\mathbf{y}_{m*1}$ 。

根据向量对向量的求导的结果应该为 $m * n$ 维的矩阵。
先求矩阵的第 $i$ 行和向量的内积对向量的第 $j$ 分量求导，用定义法求解过程如下：
$\frac{\partial A_i \mathbf{x}}{\partial x_{j}} =\frac{\partial \displaystyle \sum_{k=1}^{n}A_{ik}x_k}{\partial x_j} =A_{ij}$
矩阵 $A$ 的第 $i$ 行和向量的内积对向量的第 $j$ 分量求导的结果就是矩阵 $A$ 的 $(i, j)$ 位置的值。
因为采用了分子布局，所以求导结果为 $A$ ；而不是采用分母布局后的 $A^T$ 。
- 可见求导布局对于最后结果的输出的影响是很大的。结果上差一个转置。

小结

==使用定义法虽然已经求出一些简单的向量矩阵求导的结果，但是对于复杂的求导式子，则中间运算会很复杂，=同时求导出的结果排列也是很麻烦。==所以需要引入微分法。

2. 微分法

使用微分法来求解标量对向量的求导，以及标量对矩阵的求导。
标量对向量的求导，以及标量对矩阵的求导使用分母布局。

1.矩阵微分

解决（ $\frac{标量}{向量},\frac{标量}{矩阵}$ ）。

1.单变量

解决 $\frac{标量}{标量}$ ，这里不做探讨。
单变量的微分和导入关系如下：
$d f = f^{'} (x) d x$

2.多变量

解决 $\frac{标量}{向量}$
多元变量下的微分和导数的关系如下：
$df=\sum_{i=1}^{n}\frac{\partial f}{\partial x_i} dx_i=(\frac{\partial f}{\partial \mathbf{x}})^T d \mathbf{x}$

3.矩阵微分

解决 $\frac{标量}{矩阵}$
矩阵下的微分和导数的关系如下：
$df=\displaystyle \sum_{i=1}^{m}\sum_{j=1}^{n}\frac{\partial f}{\partial X_{ij}}dX_{ij}=tr((\frac{\partial f}{X})^TdX)$

迹函数

$\displaystyle \sum_{i=1}^{m} \sum_{j=1}^{n}A_{ij}B_{ji}=tr(A^TB)$

其中 $A, B$ 同型。
举个例子：
$\begin{pmatrix} x_{11}& x_{12}\\ x_{21}& x_{22}\\ x_{31}& x_{31} \end{pmatrix}\\ dX= \begin{pmatrix} dx_{11}& dx_{12}\\ dx_{21}& dx_{22}\\ dx_{31}& dx_{31} \end{pmatrix}\\ \therefore df = \frac{\partial f}{\partial x_{11}}dx_{11}+\frac{\partial f}{\partial x_{21}}dx_{21}+\frac{\partial f}{\partial x_{31}}dx_{31} +\frac{\partial f}{\partial x_{12}}dx_{12}+\frac{\partial f}{\partial x_{22}}dx_{22}+\frac{\partial f}{\partial x_{32}}dx_{32}$

$\therefore df= tr( \begin{pmatrix} \frac{\partial f}{\partial x_{11}}& \frac{\partial f}{\partial x_{12}}\\ \frac{\partial f}{\partial x_{21}}& \frac{\partial f}{\partial x_{22}}\\ \frac{\partial f}{\partial x_{31}}& \frac{\partial f}{\partial x_{23}} \end{pmatrix}^T \begin{pmatrix} dx_{11}& dx_{12}\\ dx_{21}& dx_{22}\\ dx_{31}& dx_{31} \end{pmatrix})$

其中：
$\begin{pmatrix} \frac{\partial f}{\partial x_{11}}& \frac{\partial f}{\partial x_{12}}\\ \frac{\partial f}{\partial x_{21}}& \frac{\partial f}{\partial x_{22}}\\ \frac{\partial f}{\partial x_{31}}& \frac{\partial f}{\partial x_{23}}\end{pmatrix}^T\begin{pmatrix} dx_{11}& dx_{12}\\ dx_{21}& dx_{22}\\ dx_{31}& dx_{31}\end{pmatrix}=\begin{pmatrix} \frac{\partial f}{\partial x_{11}}dx_{11}+\frac{\partial f}{\partial x_{21}}dx_{21}+\frac{\partial f}{\partial x_{31}}dx_{31}& *\\ *& \frac{\partial f}{\partial x_{12}}dx_{12}+\frac{\partial f}{\partial 22}dx_{22}+\frac{\partial f}{\partial x_{32}}dx_{32}\\ \end{pmatrix}$
所以：
$df=tr((\frac{\partial f}{X})^TdX)$

统一表示

上面矩阵微分的式子，可以看到矩阵微分和它的导数也有一个转置的关系，不过在外面套了一个迹函数而已。由于标量的迹函数就是它本身，那么矩阵微分和向量微分可以统一表示。即:
$向量微分:df=tr((\frac{\partial f}{\partial \mathbf{x}})^T d \mathbf{x})\\ 矩阵微分:df==tr((\frac{\partial f}{X})^TdX)$

2.矩阵微分性质和迹函数的性质

矩阵微分的性质

在后面的求导中有运用。

微分加减法： $d (X + Y) = d X + d Y$ 。
微分乘法： $d (X Y) = (d X) Y + X (d Y)$ 。
微分转置： $d(x^T)=(dX)^T$ 。
微分的迹： $t r (d X) = d (t r (X))$ 。
微分的哈达玛积： $d(X\odot Y)=d(X)\odot d(Y)$ 。
逐个元素求导： $d(\sigma'(X))=\sigma'(X)\odot d(X)$ 。
逆矩阵微分： $d(X^{-1})=-X^{-1}d(X)X^{-1}$ 。
行列式微分： $d(|X|)=|X|tr(X^{-1}dX)$ 。

说明：

其中的哈达玛积的计算，一般表示为 $A\odot B$ 或 $\circ B$ ，参考百度即可：哈达玛积
上述的逆矩阵的微分和行列式的微分，个人并没有推导。

迹函数的性质

在后面的求导中有运用。

标量的迹等于它本身： $t r (y) = y$ 。
矩阵转置不改变迹的值： $tr(A^T)=tr(A)$ 。
迹满足交换律： $t r (A B) = t r (B A)$ ，其中 $A,B^T$ 同型。
迹的加减法： $t r (X + Y) = t r (X) + t r (Y); t r (X - Y) = t r (X) - t r (Y)$ 。
矩阵乘法和迹交换： $tr((A\odot B)^T\odot C)=tr(A^T(B \odot C))$ 。其中 $A, B, C$ 同型。

3.使用微分法对矩阵向量求导

1.法则

若标量函数 $f$ 是矩阵 $X$ 经加减乘法、逆、行列式、逐元素函数等运算构成。

则使用相应的运算法则对 $f$ 求微分。
再使用迹函数技巧给 $d f$ 套上迹。
并将其它项交换至 $d X$ 左侧。
那么对于迹函数里面在 $d X$ 左边的部分，我们只需要加一个转置就可以得到导数了。

2.例子

例1

$y=a^TXb$ ，求 $\frac{\partial y}{\partial X}$ 。 $a_{m*1},X_{m*n},b_{n*1},y_{1*1}$ 。类型 $\frac{标量}{矩阵}$ ， $y$ 是一个标量， $d y$ 也是一个标量。

求解步骤：

使用微分法的乘法对 $f$ 求微分。
$dy=d(a^T)Xb+a^Td(X)b+a^TXd(b)=a^Td(X)b$
- 因为最终是对 $X$ 求导（ $d X$ ），那么微分中不含 $d X$ 的最终结果都为 $0$ 。
等式两边进行取迹（ $t r$ ）操作。
$dy=tr(dy)=tr(a^Td(X)b)=tr(ba^Td(X))$
- 第一个等式成立是因为，标量的迹等于它本身，
- 第二等式成立是因为，那本身等式的两边取迹。
- 第三个等式成立是为，迹函数的性质三。
已经将 $d X$ 放在迹内的最右侧了，那么其前面的部分加上转置就是求导后的结果。
$\frac{\partial f}{\partial X}=(ba^T)^T=ab^T$
查表Scalar-by-matrix identities的第8行，结果一致。采用分母布局。

例2

$y=a^Texp(Xb)$ ，求 $\frac{\partial y}{\partial X}$ 。 $a_{m*1},X_{m*n},b_{n*1},y_{1*1}$ 。类型 $\frac{标量}{矩阵}$ ， $y$ 是一个标量， $d y$ 也是一个标量。

$dy=d(a)exp(Xb)+a^Td(exp(Xb))\\ =a^Td(exp(Xb))\\ =a^Texp(Xb)\odot d(Xb)\\ =a^Texp(Xb)\odot (d(X)b)\\$
1. 第三个等式成立，是很显然的，用到哈达玛积。
2. 第四个等式成立，目标是要剥离出 $d X$ ,同时这样的写法是没用问题的。 $b$ 对于 $X$ 来说是常数。可以展开来详细看看。
$dy=tr(dy)=tr(a^Texp(Xb)\odot (d(X)b))\\ =tr((a \odot exp(Xb))^T(d(X)b))\\ =tr((a \odot exp(Xb))^TdXb)\\ =tr(b(a \odot exp(Xb))^TdX)$
1. 第一个等号是因为，标量的迹等于它本身。
2. 第三个等号成立是因为，迹函数的技巧5，矩阵乘法和迹交换.
3. 第六个等号成立是因为，去掉 $d X$ 的符号和原来一样，目标也是要把 $d X$ 给剥离出来。
4. 最后一个等号成立是因为，迹的交换律。
所以最终结论为：
$\frac{\partial y}{\partial X}=(b(a \odot exp(Xb))^T)^T=(a\odot exp(Xb))b^T$

4.使用迹函数对矩阵向量求导

1.基本形式

$\frac{\partial tr(AB)}{\partial A}$ ，其中 $A_{m*n},B_{n*m}$ 。 $tr(AB)_{(1*1)}$ 是个标量。类型 $\frac{标量}{矩阵}$ 。

展开
$d (t r (A B)) = t r (d (A B)) = t r (d (A) B + A d B) = t r (d (A) B) = t r (B d A)$
1. 第一个等式成立是以为， $d$ 操作和 $t r$ 操作可以互换。矩阵微分性质4，微分的迹。
2. 第二个等式成立是因为，矩阵微分2，微分乘法。
3. 第三个等式成立是因为，做种求的是关于 $d A$ ，所以不含 $d (A)$ 的项最终值均为 $0$ ，故舍去。
4. 第四个等式成立是因为，迹函数技巧3，迹的交换律。
结果，加个转置
$\frac{\partial tr(AB)}{\partial A}=B^T$

$\frac{\partial tr(AB)}{\partial B}$ ，其中 $A_{m*n},B_{n*m}$ 。 $tr(AB)_{(1*1)}$ 是个标量。

$\frac{\partial tr(AB)}{\partial B}=A^T$

2.例子

$\frac{\partial tr(W^TAW)}{\partial W}=\frac{\partial (W^TAW)}{\partial W}$ 。 $W_{n*1},A_{n*n}$ , $W^TAW_{(1*1)}$ 是一个标量。类型 $\frac{标量}{向量}$

$d(tr(W^TAW))=tr(d(W^TAW))\\ =tr(d(W^T)AW+W^TAd(W))\\ =tr((d(W)^TAW+W^TAd(W))\\ =tr((d(W))^TAW)+tr(W^TAd(W))\\ =tr((AW)^Td(W))+tr(W^TAd(W))$
所以,
$\frac{\partial tr(W^TAW)}{\partial W}=((AW)^T)^T+(W^TA)^T=AW+A^TW=(A+A^T)W$

小结

使用矩阵微分，可以在不对向量或矩阵中的某一元素单独求导再拼接，因此会比较方便，当然熟练使用的前提是对上面矩阵微分的性质，以及迹函数的性质熟练运用。
还有一些场景，求导的自变量和因变量直接有复杂的多层链式求导的关系，此时微分法使用起来也有些麻烦。如果我们可以利用一些常用的简单求导结果，再使用链式求导法则。

3.链式法

求导的自变量和因变量直接有复杂的多层链式求导的关系，此时微分法使用起来也有些麻烦。使用矩阵向量求导链式法则，快速求出导数结果。

标量对向量的求导，标量对矩阵的求导使用分母布局，向量对向量的求导使用分子布局。

1.向量对向量的求导法则

假设存在多个向量的依赖关系，如 $\mathbf{x}\rightarrow \mathbf{y} \rightarrow \mathbf{z}$ 。其中 $\mathbf{x}_{p*1},\mathbf{y}_{m*1},\mathbf{z}_{n*1}$ 。

$\frac{\partial \mathbf{z}}{\partial \mathbf{x}}$ 应该是 $(n * p)$ 维。采用分子布局，雅克比式。
所以有：
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}}=\frac{\partial \mathbf{z}}{\partial \mathbf{y}}\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$
注意：这个写法只在全是向量的依存关系时，才是对的。
拓展： $\mathbf{x}\rightarrow \mathbf{y_1} \cdots\rightarrow \mathbf{y_n}\rightarrow \mathbf{z}$ 。
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}}= \frac{\partial \mathbf{z}}{\partial \mathbf{y_n}} \frac{\partial \mathbf{y_n}}{\partial \mathbf{y_{n-1}}} \cdots \frac{\partial \mathbf{y}}{\partial \mathbf{x}}$

2.标量对多个向量的链式求导法则

在机器学习算法中，最终要优化的一般是一个标量损失函数，因此最后求导的目标是标量。所以这个更常用一点。

假设存在多个向量的依赖关系，如 $\mathbf{x}\rightarrow \mathbf{y} \rightarrow z$ 。其中 $\mathbf{x}_{p*1},\mathbf{y}_{m*1},\mathbf{z}_{1*1}$ 。 $z$ 是标量。

$\frac{\partial z}{\partial \mathbf{x}}$ 应该是 $(p * 1)$ 维。采用分母布局。
$\frac{\partial z}{\partial \mathbf{y}}$ 是 $(m * 1)$ 维，采用分母布局。 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ 是 $(m * p)$ 维。
要使上述的链式求导时维度可以相容，即
$维度_{p*1}=维度_{p*m}*维度_{m*1}$

$\frac{\partial z}{\partial \mathbf{x}}=(\frac{\partial \mathbf{y}}{\partial \mathbf{x}})^T\frac{\partial z}{\partial \mathbf{y}}$
推论： $\mathbf{x}\rightarrow \mathbf{y_1} \cdots\rightarrow \mathbf{y_n}\rightarrow z$ 。
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}}= ( \frac{\partial \mathbf{y_n}}{\partial \mathbf{y_{n-1}}} \frac{\partial \mathbf{y_{n-1}}}{\partial \mathbf{y_{n-2}}} \cdots \frac{\partial \mathbf{y_{1}}}{\partial \mathbf{x}} )^T \frac{\partial z}{\partial \mathbf{y_n}}$

例子

设有列向量 $\theta$ ，列向量 $\mathbf{z}=X\theta-\mathbf{y}$ ，标量 $l=z^Tz$ 。 $\theta_{n*1},X_{m*n},\mathbf{y}_{m*1},l_{1*1}$ 。

构成： $\theta \rightarrow \mathbf{z} \rightarrow l$ ，求 $\frac{\partial l}{\partial \theta}$
$\frac{\partial l}{\partial \theta}=(\frac{\partial \mathbf{z}}{\partial \theta})^T\frac{\partial l}{\partial \mathbf{z}}$

$\frac{\partial \mathbf{z}}{\partial \theta}=\frac{\partial (X\theta-\mathbf{y})}{\partial \theta}=\frac{\partial (X\theta)}{\partial \theta}=\frac{向量}{向量}=X$
- 采用分子布局， $\frac{\partial (X\theta)}{\partial \theta}$ 是( $m * n$ )维。所以结果是 $X_{m*n}$ ，而不是 $X^T$ 。
$\frac{\partial l}{\partial \mathbf{z}}=\frac{\partial z^Tz}{\partial z}=\frac{标量}{向量}=2z$
- 这个计算，可以用定义法求解。前面已经求过了。
$\frac{\partial l}{\partial \theta}=(\frac{\partial \mathbf{z}}{\partial \theta})^T\frac{\partial l}{\partial \mathbf{z}}=X^T(2\mathbf{z})=2X^T(X\theta - \mathbf{y})$

3.标量对多个矩阵的链式求导法则

假设有 $\rightarrow Y \rightarrow z$ 。其中 $X_{p*q},Y_{m*n},z_{1*1}$ 。 $X, Y$ 是矩阵，$z是标量。求网络的参数。

矩阵对矩阵的求导是比较复杂的定义，不给出基于矩阵整体的链式求导法则。参考
给出对矩阵中一个标量的链式求导方法。
虽然我们没有全局的标量对矩阵的链式求导法则，但是对于一些线性关系的链式求导，还是可以得到一些有用的结论的。
$\frac{\partial z}{\partial x_{ij}}=\sum_{k,l}\frac{\partial z}{\partial Y_{kl}}\frac{\partial Y_{kl}}{\partial x_{ij}}=tr((\frac{\partial z}{\partial Y})^T \frac{\partial Y}{\partial x_{ij}})$
- 其中 $k, l$ 分别从 $Y$ 的行数和列数中取值（或列数和行数）。
- 第一等式成立是以为，在 $X$ 中的一个元素 $x_{ij}$ 都和 $Y$ 中的元素 $y_{kl}$ 相关。同时对于 $Y$ 的某个确定的 $y_{k_{*}l_{*}}$ 。 $y_{k_{*}l_{*}}$ 总是和 $z$ 相关。所以出现对 $Y$ 中的每个元素对 $x_{ij}$ 求导， $z$ 对每个 $Y$ 中的元素求导，然后用链式穿起来（因为都是标量，所以谁前谁后没关系）。
- 第二等式成立是以为，前面矩阵微分已经详细说明了，并且举了例子。

经典例子

设 $A, X, B, Y$ 都是矩阵， $z$ 是标量，其中 $z = f (Y), Y = A X + B$ 。求 $\frac{\partial z}{\partial X}$ 就是经典的机器学习中问题。 $A$ 是参数矩阵， $X$ 是数据集构成的矩阵。其中 $X_{m*n},A_{p*m},Y_{p*n},z_{1*1},B_{p*n}$ 。

标量的链式求导法则求 $\frac{\partial z}{\partial x_{ij}}$ 。
$\frac{\partial z}{\partial x_{ij}}=\sum_{k,l}\frac{\partial z}{\partial Y_{kl}}\frac{\partial Y_{kl}}{\partial x_{ij}}$
对于 $\frac{\partial Y_{kl}}{\partial x_{ij}}$ 。
$\frac{\partial Y_{kl}}{\partial x_{ij}}=\frac{\partial \displaystyle \sum_{s}(A_{ks}x_{sl})}{\partial x_{ij}}=\frac{\partial (A_{ki}x_{il})}{\partial x_{ij}}=\begin{cases}A_{ki},l=j \\0,l\neq j\end{cases}=A_{ki}\delta_{lj}.\\当l=j时，\delta_{lj}=1;当l \neq j时,\delta_{lj}=0.$
1. 第一个等号成立是因为，为了方便第二个等式的推导。其实没必要给出，给出的目的只是为了强化矩阵的乘法。
  - 算的的标量的求导，那么对于 $x_{ij}$ 的偏导一定是一个变量，说白了就是矩阵相乘时 $x_{ij}$ 前的系数。这个系数的计算肯定用到矩阵的乘法。
2. 第二个等式成立是因为：
  - $X$ 和 $A$ 相乘，现在已经知道是对 $X_{ij}$ 求导，它在第 $i$ 行出现，对应的 $A_{kl}$ 一定在第 $i$ 列。所以 $s = i$ 。所以锁定 $A_{ki}$ 。其中的 $k$ 是已经确定的，相当于知道了是 $A$ 的第 $k$ 行。
  - 与 $A_{ki}$ 相乘的元素，对应 $X$ 中的第 $i$ 行，可以表示为 $A_{ki}x_{il}$ , $l$ 取尽 $X$ 中的所有列。因为要求的是 $x_{ij}$ 的导数，所以在 $l = j$ 时，对它的导数为 $A_{ki}$ ，在 $\neq j$ 时，对它的导数 $0$ 。
所以
$\frac{\partial z}{\partial x_{ij}}=\sum_{k,l}\frac{\partial z}{\partial Y_{kl}}\frac{\partial Y_{kl}}{\partial x_{ij}}=\sum_{k}\frac{\partial z}{\partial Y_{kj}}A_{ki}\delta_{lj}=\sum_{k}\frac{\partial z}{\partial Y_{kj}}A_{k}$
- 第二个等式成立是因为，取尽所有 $Y$ 中的列数得出的结果。
  - $\neq j$ 时， $\delta$ 为 $0$ 。 $l = j$ 时， $\delta$ 为 $1$ 。
- 第三个等式成立是因为，去掉 $\delta$ 并不会该变其值。因为 $\delta$ 的取值只有 $0 或 1$ 。
对于 $\sum_{k}\frac{\partial z}{\partial Y_{kj}}A_{ki}$ 。
- 这个可以写成矩阵的表达形式。
- 以为是对 $k$ 进行遍历求和，而给出的只有 $(k * i)$ 和 $(k * l)$ 。通过矩阵相乘的概念， $k$ 应该出现在矩阵相乘维度相容的中间，即 $(i * k) 和 (k * l)$ 或 $(l * k) 和 * (k * i)$ 。
- 若采用 $(i * k) 和 (k * l)$ ，矩阵 $A^T$ 的第 $i$ 行和 $\frac{\partial z}{\partial Y}$ 的第 $j$ 列的内积。
  $\frac{\partial z}{\partial X}=A^T\frac{\partial z}{\partial Y}$
  - 因为采用分布分母布局，所以 $\frac{\partial z}{\partial X}$ 应该是$m*n维的。
    - $A^T$ 是 $m * p$ 的， $\frac{\partial z}{\partial Y}$ 是 $p * n$ 的。
    - 所以上述是维度是匹配的（相容的）。
- 若采用 $(l * k) 和 (k * i)$ ，矩阵 $(\frac{\partial z}{\partial Y})^T$ 的第 $l$ 行和 $A$ 的第 $i$ 列的内积。
  $\frac{\partial z}{\partial X}=(\frac{\partial z}{\partial Y})^TA$
  - 因为采用的是分母布局，所以上述的表达式维度相容，故舍去。

结论

约定：采用分母布局。

结论1

设 $A, X, B, Y$ 都是矩阵， $z$ 是标量，其中 $z = f (Y), Y = A X + B$ 。求 $\frac{\partial z}{\partial X}$ 。

$z = f (Y), Y = A X + B$

则
$\frac{\partial z}{\partial X}=A^T\frac{\partial z}{\partial Y}$
2. 设 $A$ 都是矩阵， $\mathbf{x},\mathbf{y},b$ 是向量， $z$ 是标量，其中 $z=f(Y),Y=A\mathbf{x}+b$ 。求 $\frac{\partial z}{\partial \mathbf{x}}$ 。
$z=f(Y),Y=A\mathbf{x}+b$

$\frac{\partial z}{\partial \mathbf{x}}=A^T\frac{\partial z}{\partial \mathbf{y}}$

结论2

如果要求导的自变量在左边，线性变换在右边，也有类似稍有不同的结论如下

设 $A, X, B, Y$ 都是矩阵， $z$ 是标量，其中 $z = f (Y), Y = X A + B$ 。求 $\frac{\partial z}{\partial X}$ 。
$z = f (Y), Y = X A + B$

$\frac{\partial z}{\partial X}=\frac{\partial z}{\partial Y}A^T$
设 $X$ 是矩阵， $\mathbf{a},\mathbf{y},b$ 是向量， $z$ 是标量，其中 $z=f(Y),Y=X\mathbf{a}+b$ 。求 $\frac{\partial z}{\partial \mathbf{x}}$ 。
$z=f(Y),Y=X\mathbf{a}+b$

$\frac{\partial z}{\partial X}=\frac{\partial z}{\partial \mathbf{y}}\mathbf{a}^T$

技巧

无论自变量在那边，均采用分母布局的方式处理 $\frac{标量}{矩阵}$ 。
$\frac{\partial z}{\partial X}= 参数矩阵^T * \frac{\partial z}{\partial Y}$ 或 $\frac{\partial z}{\partial X}= \frac{\partial z}{\partial Y} * 参数矩阵^T$ 。至于是那种形式，根据矩阵相乘时的维度相容即可判别。

小结

在同等情况下，优先考虑链式求导法，尤其后面的的四个结论。其次选择微分法、最后考虑定义法。
没有结局的问题是，矩阵对矩阵的求导，还有矩阵对向量，向量对矩阵求导这三种形式。这个遇到的不多，具体参考：https://www.cnblogs.com/pinard/p/10930902.html。
常见的形式是： $\frac{标量}{标量},\frac{标量}{向量},\frac{标量}{矩阵},\frac{向量}{标量},\frac{向量}{向量},\frac{矩阵}{标量}$ 。
- 重点： $\frac{标量}{向量},\frac{标量}{矩阵},\frac{向量}{向量}$ 。
（矩阵微分性质+迹函数技巧）是真的强大，，矩阵向量链式求导法则（向量对多个向量求导，标量对多个向量求导，标量对多个矩阵的求导）【维度相容】。