矩阵向量求导

最新推荐文章于 2020-09-12 10:37:30 发布

qq_40723803

最新推荐文章于 2020-09-12 10:37:30 发布

阅读量227

点赞数 1

本文链接：https://blog.csdn.net/qq_40723803/article/details/105060551

版权

矩阵向量求导

现在CSDN使用的是KaTeX（latex的渲染器）,不支持align，但可以用aligned达到同样的目的，还有multiple tag：\tag{1}, \tag{2}也不支持!!!

一.定义和所有求导类型

1.1 定义

1.2 分布布局的介绍

矩阵、向量求导结果的分布布局有2种：分子布局和分母布局，两者互为转置

1.2.1 分子布局

求导结果的第一维度与分子同型，第二维度是分母类型的转置。

分子布局的求导类型包括：标量对标量、向量对标量、矩阵对标量、向量对向量求导（一般）

1.2.2 分母布局

与分子布局相反，求导结果的第一维度与分母同型，第二维度是分子类型的转置。

分子布局的求导类型包括：标量对向量、标量对矩阵

1.3 所有的求导类型

共9种，分别是：标量对标量、向量对标量、矩阵对标量

标量对向量、向量对向量、矩阵对向量#

标量对矩阵、向量对矩阵#、矩阵对矩阵#

其中，加#的三种单独讨论

二.对标量的求导

2.1 标量对标量的求导

定义：
$R \to R$
同高等数学，包括一元函数的微分、求导；多元函数的全微分、求偏导、求导、链式法则

2.2 向量对标量的求导

2.2.1 总的思路

$\vec y_{m\times1} = \begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_{n-1}\\y_{n} \end{bmatrix},\quad 其中，y_i = f(x),\quad f是一个实值函数：R→R,\quad 求 \frac {\partial \vec y}{\partial x}\\ 求导思路为:\vec y中的每个元素分别对x进行求导\\ 求导结果采用分子布局，结果为： \frac {\partial \vec y}{\partial x} = \begin{bmatrix} \frac {\partial y_1}{\partial x}\\ \frac {\partial y_2}{\partial x}\\ \vdots\\ \frac {\partial y_{n-1}}{\partial x}\\ \frac {\partial y_n}{\partial x} \end{bmatrix}$
可以看出，求导结果仍是一个向量，且由于采用分子布局，所以向量的维度与分子的维度是一致的

2.3 矩阵对标量的求导

2.3.1 总的思路
$\mathbf Y = (y_{ij})_{m \times n},\quad 其中，y_i = f(x),\quad f是一个实值函数：R→R,\quad 求 \frac {\partial \mathbf Y}{\partial x}\\ 求导思路为:\mathbf Y中的每个元素分别对x进行求导\\ 求导结果采用分子布局，结果为： \frac{\partial \mathbf{Y}}{\partial x} = \left( \begin{array}{ccc} \frac{\partial y_{11}}{\partial x}& \frac{\partial y_{12}}{\partial x}& \ldots & \frac{\partial y_{1n}}{\partial x}\\ \frac{\partial y_{21}}{\partial x}& \frac{\partial y_{22}}{\partial x} & \ldots & \frac{\partial y_{2n}}{\partial x}\\ \vdots& \vdots & \ddots & \vdots \\ \frac{\partial y_{m1}}{\partial x}& \frac{\partial y_{m2}}{\partial x} & \ldots & \frac{\partial y_{mn}}{\partial x} \end{array} \right)_{m \times n}$

求导的结果矩阵与Y的维度是一致的，均为m*n

三.标量对向量、矩阵的求导

3.1.标量对向量的求导

3.1.1 总的思路

最简单的原理介绍
$\vec x_{n\times1} = \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_{n-1}\\ x_{n}\end{bmatrix},\quad 标量y = f(\vec x),\quad f是一个实值函数：R^n→R,\quad 求 \frac {\partial y}{\partial \vec x}\\ 求导结果采用分母布局，结果为：\frac {\partial y}{\partial \vec x} = \begin{bmatrix} \frac {\partial y}{\partial x_1}\\ \frac {\partial y}{\partial x_2}\\ \vdots\\ \frac {\partial y}{\partial x_{n-1}}\\ \frac {\partial y}{\partial x_{n}} \end{bmatrix}$

使用时，求解方法为定义法或者微分法（推荐）：

基于微分法的求导公式：

$tr((\frac{\partial y}{\partial \vec{x}})^Td\vec{x}),\quad 从中可求出\frac {\partial y}{\partial \vec x}$

定义法的原理：

先分解，求单独一项
$\frac {\partial y}{\partial x_i}$
再根据分母布局，推广至
$\frac {\partial y}{\partial \vec x}$

3.1.2 常见题型（结论）及其证明

1
$\vec x_{n \times 1}、\vec a_{n \times 1}\quad, y = \vec a^T \vec x， \quad \frac {\partial y}{\partial \vec x} = \vec a$
2
$\vec x^T \vec a ， \quad \frac {\partial y}{\partial \vec x} = \vec a^T$
3
$\frac{\partial \vec{x}^T\vec{x}}{\partial \vec{x}},\quad \frac {\partial y}{\partial \vec x} =2\vec{x}$
4 虽然有矩阵成分，但是仍是标量对向量求导
$\vec x_{n \times 1}、\mathbf{A}_{n \times n} = (a_{ij})_{n \times n} \quad 标量y = \vec{x}^T\mathbf{A}\vec{x},\quad 求\frac {\partial y}{\partial \vec x}$
第一种方法：定义法求解

分解：
$\frac {y}{\partial x_k} = \frac{\partial \vec{x}^T\mathbf{A}\vec{x}}{\partial x_k} = \frac{\partial \sum\limits_{i=1}^n\sum\limits_{j=1}^n x_i a_{ij} x_j}{\partial x_k} = \sum\limits_{i=1}^n a_{ik}x_i + \sum\limits_{j=1}^n a_{kj}x_j \\ \quad\quad\quad\quad\quad\quad\quad =\begin{bmatrix} a_{1k} & a_{2k} & \cdots & a_{nk} \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_{n-1}\\ x_n \end{bmatrix} + \begin{bmatrix} a_{k1} & a_{k2} & \cdots & a_{kn} \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_{n-1}\\ x_n \end{bmatrix}$
归纳：
$求导结果的第一部分是矩阵A的第k列转置后(即A^T的第k行）和\vec x相乘，第二部分是矩阵A的第k行和\vec x相乘$
推广：

根据向量的第k个元素可以表示为前面矩阵的第k行*后面的向量，则：
$\frac{\partial \vec{x}^T\mathbf{A}\vec{x}}{\partial \vec{x}} = \mathbf{A}^T\vec{x} + \mathbf{A}\vec{x}\\ \mathbf{A}^T\vec{x} ≠ \vec x^T \mathbf A^T$

第二种方法：微分法求解

先对等式两边进行微分：
$d(\vec x^T) \mathbf A \vec x + \vec x^T(d\mathbf A)\vec x + \vec x^T \mathbf A d(\vec x) = d(\vec x^T) \mathbf A \vec x + \vec x^T \mathbf A d(\vec x)$
再对等式两边取迹：
$\begin{aligned} dy = tr(dy) &= tr(d(\vec x^T) \mathbf A \vec x + \vec x^T \mathbf A d(\vec x)) \\ &= tr(d(\vec x^T) \mathbf A \vec x) + tr(\vec x^T \mathbf A d(\vec x)) \qquad (1)\\ &= tr((d\vec x)^T \mathbf A \vec x) + tr(\vec x^T \mathbf A d(\vec x)) \qquad (2)\\ &= tr(\vec x^T \mathbf A^T d\vec x) + tr(\vec x^T \mathbf A d(\vec x)) \qquad (3)\\ &= tr(\vec x^T(\mathbf A^T + \mathbf A) d(\vec x)) \end{aligned}$
(1) 是根据矩阵（向量）的迹的加减法：
$t r (A \pm B) = t r (A) \pm t r (B)$
(2) 是根据转置矩阵（向量）的微分公式：
$d(\mathbf X^T) = d(\mathbf X)^T$
(3) 是根据转置矩阵（向量）的迹的性质：
$tr(\mathbf A) = tr(\mathbf A^T)$
根据标量对向量的求导公式可以得出
$\frac{\partial y}{\partial \vec x} = (\vec x^T(\mathbf A^T + \mathbf A))^T = (\mathbf A + \mathbf A^T) \vec x = \mathbf A \vec x + \mathbf A^T \vec x$
结果与定义法是一致的。

3.2 标量对矩阵的求导

3.2.1 总的思路

总的求解方法有三种：

1.定义法

举例：
$\vec a_{m \times 1}, \quad \mathbf X_{m \times n} = (x_{ij})_{m \times n}, \quad \vec b_{n \times 1}.\quad y = \vec a^T \mathbf X \vec b,\quad 求\frac {\partial y}{\partial \mathbf X}$
首先进行分解：
$\frac{\partial y}{\partial x_{ij}} = \frac{\partial \vec a^T \mathbf X \vec b}{\partial x_{ij}} = \frac{\partial (\sum\limits_{k=1}^m \sum\limits_{l=1}^n a_k x_{kl} b_l)}{\partial x_{ij}} = \frac {\partial a_i x_{ij} b_j}{\partial x_{ij}} = a_i b_j \quad(当k=i，l=j时)$
可以看出，y对X的求导结果的第（i,j）元是向量a的i行，向量b的j列

进行归纳和推广：
$\frac{\partial y}{\partial \mathbf X} = (\frac{\partial y}{\partial x_{ij}})_{m\times n}= \vec a \vec b^T \quad （或者 \vec b \vec a^T）$
定义法的局限性：当处理比较复杂的标量时，进行定义分解是比较困难的，且速度慢

2.微分法

微分法的求解基于矩阵(向量)的微分以及标量对矩阵（也可以对向量）的求导公式。

矩阵（向量）的微分：
$d (X Y Z) = (d X) Y Z + X (d Y) Z + X Y (d Z)$
一定要注意微分矩阵的顺序,且X、Y或者Z是向量时，公式同上。

标量对矩阵的微分公式
$tr((\frac{\partial y}{\partial \mathbf{X}})^Td\mathbf{X}),\quad 从中可求出\frac {\partial y}{\partial \mathbf X}$
3.链式法则

3.2.2 常见题型（结论）及其证明

$\vec a_{m \times 1}, \quad \mathbf X_{m \times n} = (x_{ij})_{m \times n}, \quad \vec b_{n \times 1}.\quad y = \vec a^T \mathbf X \vec b,\quad 求\frac {\partial y}{\partial \mathbf X}$
第一种方法：定义法

首先进行分解：
$\frac{\partial y}{\partial x_{ij}} = \frac{\partial \vec a^T \mathbf X \vec b}{\partial x_{ij}} = \frac{\partial (\sum\limits_{k=1}^m \sum\limits_{l=1}^n a_k x_{kl} b_l)}{\partial x_{ij}} = \frac {\partial a_i x_{ij} b_j}{\partial x_{ij}} = a_i b_j \quad(当k=i，l=j时)$
可以看出，y对X的求导结果的第（i,j）元是向量a的i行，向量b的j列

进行归纳和推广：
$\frac{\partial y}{\partial \mathbf X} = (\frac{\partial y}{\partial x_{ij}})_{m\times n}=\vec a \vec b^T \quad （或者 \vec b \vec a^T）$
第二种方法：微分法

先求微分：
$(d\vec{a}^T)\mathbf{X}\vec{b} + \vec{a}^T(d\mathbf{X})\vec{b} + \vec{a}^T\mathbf{X}(d\vec{b}) = \vec{a}^T(d\mathbf{X})\vec{b} \\ 由于是对矩阵X求偏导，所以向量a、b都相当于常量，微分为0$

再对等式两边取迹（都是标量，可以直接加迹）：
$tr(\vec{a}^T(d\mathbf{X})\vec{b}) = tr(\vec{b}\vec{a}^T d\mathbf{X})$
这里利用了矩阵（向量）的迹交换性质：
$\quad 需要满足A,BT同维度\\A、B也可以是向量，并且可以把A看做是多个矩阵乘积的结果，则该公式就可应用于多个矩阵乘法的迹交换$
再根据标量对矩阵的微分公式，解出
$\frac {\partial y}{\partial \mathbf X} = (\vec{b}\vec{a}^T)^T = \vec{a}\vec{b}^T,\quad \vec{b}\vec{a}^T ≠ \vec{a}\vec{b}^T$
2.
$\vec a^T exp(\mathbf X \vec b), \quad f=exp()是一个逐元素函数:R^n→R^n\\ 则\frac {\partial y}{\partial \mathbf X} = (a \odot exp(\mathbf X \vec b))\vec b^T$
其中：
$\odot 是逐元素乘法（哈达马积）的符号，定义为：\\ (A \odot B)_{i,j} = (A)_{i,j}(B)_{i,j}\quad 要求两矩阵（向量）同型$

四.迹函数对矩阵求导

类似于微分法：

例题：

$tr(\mathbf{B^T X^T C X B}),\quad 求解\frac {\partial y}{\partial \mathbf X}$
先对迹求微分：
$dtr(\mathbf X) = tr(d\mathbf X)$

$\begin{aligned} dy = dtr(\mathbf{B^T X^T C X B}) &= tr(d(\mathbf{B^T X^T C X B}))\\ &=tr(\mathbf B^T(d\mathbf X^T) \mathbf{C X B} + \mathbf{B^T X^T C}(d\mathbf X) \mathbf B)\\ &=tr(\mathbf B^T(d\mathbf X)^T \mathbf {C X B}) + tr(\mathbf{B^T X^T C}(d\mathbf X) \mathbf B)\\ &=tr(\mathbf {B^T X^T C^T}(d\mathbf X) \mathbf B) + tr(\mathbf{B^T X^T C}(d\mathbf X) \mathbf B) \qquad (1) \\ &=tr(\mathbf{B} \mathbf {B^T X^T C^T}(d\mathbf X)) + tr(\mathbf B \mathbf {B^T X^T C}(d\mathbf X)) \qquad (2)\\ &=tr(\mathbf{B B^T X^T} (\mathbf{C^T + C}) (d\mathbf X)) \end{aligned}$

其中 (1) 是根据转置矩阵（向量）的迹的性质
$tr(\mathbf A) = tr(\mathbf A^T)$
(2) 是根据矩阵乘法的迹交换性质
$\quad 要求A与B的转置是同型的\\ 另外可将一个矩阵（向量）看做是多个矩阵相乘，则扩展到多个矩阵（向量）形式$

所以，根据标量对矩阵的微分公式，解出
$\frac {\partial y}{\partial \mathbf X} = (\mathbf{B B^T X^T} (\mathbf{C^T + C}))^T = (\mathbf{C + C^T}) \mathbf{X B B^T}$
2.
$tr(\mathbf{W^T A W}), \quad \frac{\partial y}{\partial \mathbf W} = (\mathbf{A + A^T}) \mathbf W$
3.
$tr(\mathbf{A B}), \quad \frac{\partial y}{\partial \mathbf A} = \mathbf {B^T}$
4.
$tr(\mathbf{A B}), \quad \frac{\partial y}{\partial \mathbf B} = \mathbf {A^T}$

五.矩阵对矩阵的求导

5.1 定义

$\mathbf X_{mn}、 \mathbf Y_{pq}，则 \frac{\partial \mathbf Y}{\partial \mathbf X}应该有mn*pq个值，如何排列？$

主流定义：

先对Y求微分，再对微分结果（矩阵）做（列）向量化，再使用向量对向量求导

求导法则：
$vec(d\mathbf Y) = (\frac{\partial \mathbf Y}{\partial \mathbf X})^Tvec(d\mathbf X) = (\frac{\partial vec(\mathbf Y)}{\partial vec(\mathbf X)})^T vec(d\mathbf X)$

5.2 例子

$\mathbf Y = \mathbf{AXB}，求 \frac{\partial \mathbf Y}{\partial \mathbf X}$
先求微分：
$d\mathbf Y = \mathbf A(d\mathbf X)\mathbf B$
再对微分等式两边向量化：
$\begin{aligned} vec(d\mathbf Y) &= vec(\mathbf A(d\mathbf X)\mathbf B) \\ &= (\mathbf B^T ⊗ \mathbf A) vec(d\mathbf X) \end{aligned}$
等式是根据矩阵向量化的运算法则（矩阵乘法）：
$vec(\mathbf{AXB}) = (\mathbf B^T ⊗ \mathbf A) vec(\mathbf X)$

套用求导法则：
$\begin{aligned} \frac{\partial \mathbf Y}{\partial \mathbf X} &= (\mathbf B^T ⊗ \mathbf A)^T \\ &= (\mathbf B ⊗ \mathbf A^T) \end{aligned}$
等式是根据克罗内可积的运算法则：
$(\mathbf A ⊗ \mathbf B)^T = \mathbf A^T ⊗ \mathbf B^T$
2.
$\mathbf Y = \mathbf A exp(\mathbf{BXC}) \mathbf D，求\frac{\partial \mathbf Y}{\partial \mathbf X}$
先求微分：
$d\mathbf Y = \mathbf A [exp(\mathbf{BXC}) \odot d(\mathbf B d(\mathbf X) \mathbf C)] \mathbf D$
再对微分等式两边向量化：
$\begin{aligned} vec(d\mathbf Y) &= vec( \mathbf A · [exp(\mathbf{BXC}) \odot (\mathbf B d(\mathbf X) \mathbf C)] · \mathbf D ) \\ &= (\mathbf D^T ⊗ \mathbf A) · vec[exp(\mathbf{BXC}) \odot (\mathbf B d(\mathbf X) \mathbf C)] \qquad\qquad\quad(1)\\ &= (\mathbf D^T ⊗ \mathbf A) · diag[exp(\mathbf{BXC})] · vec(\mathbf B d(\mathbf X) \mathbf C) \qquad\qquad(2)\\ &= (\mathbf D^T ⊗ \mathbf A) · diag[exp(\mathbf{BXC})] · [(\mathbf C^T ⊗ \mathbf B) · vec(d\mathbf X)] \quad(3)\\ &= (\mathbf D^T ⊗ \mathbf A) · diag[exp(\mathbf{BXC})] · (\mathbf C^T ⊗ \mathbf B) · vec(d\mathbf X) \end{aligned}$
其中：
$\odot 是哈达马乘积， ⊗是克罗内克乘积 \\ 式子1根据矩阵向量化的运算法则（矩阵乘法）： vec(\mathbf{AXB}) = (\mathbf B^T ⊗ \mathbf A) vec(\mathbf X) \\ 式子2根据矩阵向量化的运算法则（逐元素乘法）： vec(\mathbf A \odot \mathbf X) = diag(\mathbf X) · vec(\mathbf X) \\ 式子3根据矩阵向量化的运算法则（矩阵乘法）： vec(\mathbf{AXB}) = (\mathbf B^T ⊗ \mathbf A) vec(\mathbf X)$
所以：
$\begin{aligned} \frac{\partial \mathbf Y}{\partial \mathbf X} &= [(\mathbf D^T ⊗ \mathbf A) · diag[exp(\mathbf{BXC})] · (\mathbf C^T ⊗ \mathbf B)]^T\\ &= (\mathbf C^T ⊗ \mathbf B)^T · diag[exp(\mathbf{BXC})] · (\mathbf D^T ⊗ \mathbf A)^T\\ &= (\mathbf C ⊗ \mathbf B^T) · diag[exp(\mathbf{BXC})] · (\mathbf D ⊗ \mathbf A^T)\\ \end{aligned}$
其中：
$其中diag(\mathbf A)_{mn×mn}是用\mathbf A_{mn}的元素（按列优先）排成的对角阵\\ (diag[exp(\mathbf{BXC})])^T = diag[exp(\mathbf{BXC})]，即对角阵的转置仍是自己本身$
3.
$\mathbf Y = \mathbf{X_{mn}B}， \frac{\partial \mathbf Y}{\partial \mathbf X} = \mathbf B ⊗ \mathbf I_{m}$
其中：
$利用了公式：vec(\mathbf{XA}) = (\mathbf A^T ⊗ \mathbf I_{m}) · vec(\mathbf X)\\$
4.
$\mathbf Y = \mathbf{AX_{mn}}， \frac{\partial \mathbf Y}{\partial \mathbf X} = \mathbf I_{n} ⊗ \mathbf A^T$
其中：
$利用了公式：vec(\mathbf{AX}) = (\mathbf A^T ⊗ \mathbf I_{n}) · vec(\mathbf X)$

qq_40723803

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
矩阵向量求导

矩阵向量求导一.定义和所有求导类型1.1 定义1.2 分布布局的介绍1.3 所有的求导类型二.对标量的求导2.1 标量对标量的求导2.2 向量对标量的求导2.3 矩阵对标量的求导三.标量对向量、矩阵的求导3.1.标量对向量的求导3.2 标量对矩阵的求导四.迹函数对矩阵求导五.矩阵对矩阵的求导5.1 定义5.2 例子现在CSDN使用的是KaTeX（latex的渲染器）,不支持align，但可以用a...
复制链接

扫一扫