矩阵求导——学习笔记

No_one-_-2022

已于 2023-04-06 14:11:17 修改

阅读量618

点赞数 1

文章标签：矩阵学习线性代数

于 2023-04-06 13:50:02 首次发布

本文链接：https://blog.csdn.net/m0_51143578/article/details/129979852

版权

矩阵、向量求导法则，我们这里默认的是分母布局

一、基本定理

1.1 对元素求导

行向量

设 $\mathbf{y}^T=[y_1 \dots y_n]$ 是行向量， $x$ 是元素，则
$\frac{\partial \mathbf{y}^{T}}{\partial x}=\left[\begin{array}{lll} \frac{\partial y_{1}}{\partial x} & \cdots & \frac{\partial y_{n}}{\partial x} \end{array}\right]$

列向量

设 $\mathbf{y}=\left[\begin{array}{c} y_{1} \\ \vdots \\ y_{m} \end{array}\right]$ 是 $m$ 维列向量， $x$ 是元素，则

$\frac{\partial \mathbf{y}}{\partial x}=\left[\begin{array}{c} \frac{\partial y_{1}}{\partial x} \\ \vdots \\ \frac{\partial y_{m}}{\partial x} \end{array}\right]$

矩阵

设 $Y=\left[\begin{array}{ccc} y_{11} & \cdots & y_{1 n} \\ \vdots & & \vdots \\ y_{m 1} & \cdots & y_{m n} \end{array}\right]$ 是 $m\times n$ 矩阵， $x$ 是元素，则

$\frac{\partial Y}{\partial x}=\left[\begin{array}{ccc} \frac{\partial y_{11}}{\partial x} & \cdots & \frac{\partial y_{1 n}}{\partial x} \\ \vdots & & \\ \frac{\partial y_{m 1}}{\partial x} & \cdots & \frac{\partial y_{m n}}{\partial x} \end{array}\right]$

1.2 对行向量求导

元素
设 $y$ 是元素， $\mathbf{x}^{T}=\left[\begin{array}{lll} x_{1} & \cdots & x_{q} \end{array}\right]$ 是 $q$ 维行向量，则

$\frac{\partial y}{\partial \mathbf{x}^{T}}=\left[\begin{array}{lll} \frac{\partial y}{\partial x_{1}} & \cdots & \frac{\partial y}{\partial x_{q}} \end{array}\right]$

列向量

设 $\mathbf{y}=\left[\begin{array}{c} y_{1} \\ \vdots \\ y_{m} \end{array}\right]$ 是 $m$ 维列向量， $\mathbf{x}^{T}=\left[\begin{array}{lll} x_{1} & \cdots & x_{q} \end{array}\right]$ 是 $q$ 维行向量，则

$\frac{\partial \mathbf{y}}{\partial \mathbf{x}^{T}}=\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{q}} \\ \vdots & & \\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{q}} \end{array}\right]$

行向量

设 $\mathbf{y}^T=[y_1 \dots y_n]$ 是 $n$ 维行向量， $\mathbf{x}^{T}=\left[\begin{array}{lll} x_{1} & \cdots & x_{q} \end{array}\right]$ 是 $q$ 维行向量，则
$\frac{\partial \mathbf{y}^{T}}{\partial \mathbf{x}^{T}}=\left[\begin{array}{lll} \frac{\partial \mathbf{y}^{T}}{\partial x_{1}} & \cdots & \frac{\partial \mathbf{y}^{T}}{\partial x_{q}} \end{array}\right]$

矩阵

设 $Y=\left[\begin{array}{ccc} y_{11} & \cdots & y_{1 n} \\ \vdots & & \vdots \\ y_{m 1} & \cdots & y_{m n} \end{array}\right]$ 是 $m\times n$ 矩阵， $\mathbf{x}^{T}=\left[\begin{array}{lll} x_{1} & \cdots & x_{q} \end{array}\right]$ 是 $q$ 维行向量，则

$\frac{\partial Y}{\partial \mathbf{x}^{T}}=\left[\begin{array}{lll} \frac{\partial Y}{\partial x_{1}} & \cdots & \frac{\partial Y}{\partial x_{q}} \end{array}\right]$

1.3 对列向量求导

元素

设 $y$ 是元素， $\mathbf{x}=\left[\begin{array}{c} x_{1} \\ \vdots \\ x_{p} \end{array}\right]$ 是 $p$ 维列向量，则
$\frac{\partial y}{\partial \mathbf{x}}=\left[\begin{array}{c} \frac{\partial y}{\partial x_{1}} \\ \vdots \\ \frac{\partial y}{\partial x_{p}} \end{array}\right]$

行向量

设 $\mathbf{y}^T=[y_1 \dots y_n]$ 是 $n$ 维行向量， $\mathbf{x}=\left[\begin{array}{c} x_{1} \\ \vdots \\ x_{p} \end{array}\right]$ 是 $p$ 维列向量，则
$\frac{\partial \mathbf{y}^{T}}{\partial \mathbf{x}}=\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{n}}{\partial x_{1}} \\ \vdots & & \\ \frac{\partial y_{1}}{\partial x_{p}} & \cdots & \frac{\partial y_{n}}{\partial x_{p}} \end{array}\right]$

列向量

设 $\mathbf{y}=\left[\begin{array}{c} y_{1} \\ \vdots \\ y_{m} \end{array}\right]$ 是 $m$ 维列向量， $\mathbf{x}=\left[\begin{array}{c} x_{1} \\ \vdots \\ x_{p} \end{array}\right]$ 是 $p$ 维列向量，则
$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\left[\begin{array}{c} \frac{\partial y_{1}}{\partial \mathbf{x}} \\ \vdots \\ \frac{\partial y_{m}}{\partial \mathbf{x}} \end{array}\right]$

矩阵

设 $Y=\left[\begin{array}{ccc} y_{11} & \cdots & y_{1 n} \\ \vdots & & \vdots \\ y_{m 1} & \cdots & y_{m n} \end{array}\right]$ 是 $m\times n$ 矩阵， $\mathbf{x}=\left[\begin{array}{c} x_{1} \\ \vdots \\ x_{p} \end{array}\right]$ 是 $p$ 维列向量，则
$\frac{\partial Y}{\partial \mathbf{x}}=\left[\begin{array}{ccc} \frac{\partial y_{11}}{\partial \mathbf{x}} & \cdots & \frac{\partial y_{1 n}}{\partial \mathbf{x}} \\ \vdots & & \vdots \\ \frac{\partial y_{m 1}}{\partial \mathbf{x}} & \cdots & \frac{\partial y_{m n}}{\partial \mathbf{x}} \end{array}\right]$

1.4 对矩阵求导

元素

设 $y$ 是元素， $X=\left[\begin{array}{ccc} x_{11} & \cdots & x_{1 q} \\ \vdots & & \vdots \\ x_{p 1} & \cdots & y_{p q} \end{array}\right]$ 是 $p\times q$ 维矩阵，则

$\frac{\partial y}{\partial X^T}=\left[\begin{array}{ccc} \frac{\partial y}{\partial x_{11}} & \cdots & \frac{\partial y}{\partial x_{1 q}} \\ \vdots & & \\ \frac{\partial y}{\partial x_{p 1}} & \cdots & \frac{\partial y}{\partial x_{p q}} \end{array}\right]$

行向量

设 $\mathbf{y}^T=[y_1 \dots y_n]$ 是 $n$ 维行向量，
$X=\left[\begin{array}{ccc} x_{11} & \cdots & x_{1 q} \\ \vdots & & \vdots \\ x_{p 1} & \cdots & y_{p q} \end{array}\right]$ 是 $p\times q$ 维矩阵，则

$\frac{\partial \mathbf{y}^{T}}{\partial X}=\left[\begin{array}{ccc} \frac{\partial \mathbf{y}^{T}}{\partial x_{11}} & \cdots & \frac{\partial \mathbf{y}^{T}}{\partial x_{1 q}} \\ \vdots & & \\ \frac{\partial \mathbf{y}^{T}}{\partial x_{p 1}} & \cdots & \frac{\partial \mathbf{y}^{T}}{\partial x_{p q}} \end{array}\right]$

二、例题

这一部分的主要例题是学习了B站UP主杂谈博士的视频，大家有空可以去学习一下。

例1 设 $\boldsymbol{x}=\left(\xi_{1}, \xi_{2}, \cdots \xi_{n}\right)^{T}$ ，n 元函数 $f(\boldsymbol{x})$ ，求 $\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}^{T}}$ ， $\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}}$ ，和 $\frac{\mathrm{d}^{2} f}{\mathrm{~d} \boldsymbol{x}^{2}}$ 。

解：根据定义有

$\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}^{T}}=\left(\frac{\partial f}{\partial \xi_{1}}, \frac{\partial f}{\partial \xi_{2}}, \cdots, \frac{\partial f}{\partial \xi_{n}}\right)$

梯度

$\nabla f(\boldsymbol{x})=\frac{\mathbf{d} f}{\mathbf{d} \boldsymbol{x}}=\left(\begin{array}{c} \frac{\partial f}{\partial \xi_{1}} \\ \vdots \\ \frac{\partial f}{\partial \xi_{n}} \end{array}\right)$

Hessian阵：

$\boldsymbol{H}(\boldsymbol{x})=\nabla^{2} f(\boldsymbol{x})=\frac{\mathbf{d}^{2} f}{\mathbf{d} \boldsymbol{x}^{2}}=\left(\begin{array}{cccc} \frac{\partial^{2} f}{\partial \xi_{1}^{2}} & \frac{\partial^{2} f}{\partial \xi_{1} \partial \xi_{2}} & \cdots & \frac{\partial^{2} f}{\partial \xi_{1} \partial \xi_{n}} \\ \frac{\partial^{2} f}{\partial \xi_{2} \partial \xi_{1}} & \frac{\partial^{2} f}{\partial \xi_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial \xi_{2} \partial \xi_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial \xi_{n} \partial \xi_{1}} & \frac{\partial^{2} f}{\partial \xi_{n} \partial \xi_{2}} & \cdots & \frac{\partial^{2} f}{\partial \xi_{n}^{2}} \end{array}\right)$

例2 设 $\boldsymbol{A}=\left(a_{i j}\right)_{m \times n}$ 是常矩阵， $\boldsymbol{X}=\left(x_{i j}\right)_{n \times m}$ 是矩阵变量，且 $f(X)=\operatorname{tr}(A X)$ ，求 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。

分析：

$\left(\begin{array}{ccc} c_{11} & \cdots & c_{1 m} \\ \vdots & \ddots & \vdots \\ c_{m 1} & \cdots & c_{m m} \end{array}\right)=\left(\begin{array}{ccc} a_{11} & \cdots & a_{1 n} \\ \vdots & \ddots & \vdots \\ a_{m 1} & \cdots & a_{m n} \end{array}\right)\left(\begin{array}{ccc} x_{11} & \cdots & x_{1 m} \\ \vdots & \ddots & \vdots \\ x_{n 1} & \cdots & x_{n m} \end{array}\right)$

解：
由于 $\boldsymbol{A} \boldsymbol{X}=\left(\sum_{k=1}^{n} a_{i k} x_{k j}\right)_{m \times m}$

所以

$f(X)=\operatorname{tr}(A X)=\sum_{s=1}^{m}\left(\sum_{k=1}^{n} a_{s k} x_{k s}\right)$

而

$\left(\frac{\partial f}{\partial x_{i j}}\right)_{n \times m}=\left(a_{j i}\right)_{n \times m} \quad(i=1,2, \cdots, n \quad j=1,2,\cdots,m)$

故

$\frac{\partial f}{\partial \boldsymbol{X}}=\left(\frac{\partial f}{\partial x_{i j}}\right)_{n \times m}=\left(a_{j i}\right)_{n \times m}=\boldsymbol{A}^{T}$

例3 设 $\boldsymbol{x}=\left(\xi_{1}, \xi_{2}, \cdots \xi_{n}\right)^{T}$ ， $\boldsymbol{A}=\left(a_{i j}\right)_{n \times n}$ 是常矩阵，n 元函数 $f(\boldsymbol{x})=\boldsymbol{x}^{T} \mathbf{A} \boldsymbol{x}$ ，求 $\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}}$ 。

解：因 $f(\boldsymbol{x})=\xi_{1} \sum_{j=1}^{n} a_{1 j} \xi_{j}+\cdots+\xi_{k} \sum_{j=1}^{n} a_{k j} \xi_{j}+\cdots+\xi_{n} \sum_{j=1}^{n} a_{n j} \xi_{j}$

所以

$\begin{aligned} \frac{\partial f(\boldsymbol{x})}{\partial \xi_{k}} &=\xi_{1} a_{1 k}+\ldots+\xi_{k-1} a_{k-1, k}+\left(\sum_{j=1}^{n} a_{k j} \xi_{j}+\xi_{k} a_{k k}\right)+\xi_{k+1} a_{k+1, k}+\ldots+\xi_{n} a_{n k} \\ &=\sum_{i=1}^{n} a_{i k} \xi_{i}+\sum_{j=1}^{n} a_{k j} \xi_{j}, \quad k=1,2, \cdots, n\\ \end{aligned}$

$\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}}=\left(\begin{array}{c} \frac{\partial f}{\partial \xi_{1}} \\ \frac{\partial f}{\partial \xi_{2}} \\ \vdots \\ \frac{\partial f}{\partial \xi_{n}} \end{array}\right)=\left(\begin{array}{c} \sum_{j=1}^{n} a_{1j} \xi_{j} \\ \sum_{j=1}^{n} a_{2 j} \xi_{j} \\ \vdots \\ \sum_{j=1}^{n} a_{i j} \xi_{j} \end{array}\right)+\left(\begin{array}{c} \sum_{i=1}^{n} a_{i 1} \xi_{i} \\ \sum_{i=1}^{n} a_{i 2} \xi_{i} \\ \vdots \\ \sum_{i=1}^{n} a_{i n} \xi_{i} \end{array}\right)==\mathbf{A} \boldsymbol{x}+\mathbf{A}^{T} \boldsymbol{x}=\left(\mathbf{A}+\mathbf{A}^{T}\right) \boldsymbol{x}$

特别地，当 $A$ 为对称矩阵时， $\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}}=2 A x$ 。

例4 设 $\boldsymbol{A} \in \mathbb{R}^{m \times n}$ ， $\boldsymbol{b} \in \mathbb{R}^{m}$ ， $\boldsymbol{x} \in \mathbb{R}^{n}$ ， $f(x)=\|\boldsymbol{A} \boldsymbol{x}-\boldsymbol{b}\|_{2}^{2}$ ，试求 $\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}}$

解：因为

$\begin{aligned} f(\boldsymbol{x}) & =\|\boldsymbol{A} \boldsymbol{x}-\boldsymbol{b}\|_{2}^{2}=(\boldsymbol{A} \boldsymbol{x}-\boldsymbol{b}, \boldsymbol{A} \boldsymbol{x}-\boldsymbol{b})=(\boldsymbol{A} \boldsymbol{x}-\boldsymbol{b})^{T}(\boldsymbol{A} \boldsymbol{x}-\boldsymbol{b}) \\ & =\left(\boldsymbol{x}^{T} \boldsymbol{A}^{T}-\boldsymbol{b}^{T}\right)(\boldsymbol{A} \boldsymbol{x}-\boldsymbol{b}) \\ & =\boldsymbol{x}^{T} \boldsymbol{A}^{T} \boldsymbol{A} \boldsymbol{x}-\boldsymbol{b}^{T} \boldsymbol{A} \boldsymbol{x}-\boldsymbol{x}^{T} \boldsymbol{A}^{T} \boldsymbol{b}+\boldsymbol{b}^{T} \boldsymbol{b} \\ & =x^{T}\left(A^{T} A\right) x-2\left(A^{T} b\right)^{T} x+b^{T} b \end{aligned}$

最后一行我懒得打 \boldsymbol。大家理解一下，doge。此外，二次型的导数之所以可以写成这样，是因为 $\boldsymbol{A}^{T} \boldsymbol{A}$ 是一个对称矩阵。

从而

$\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}}=2 \boldsymbol{A}^{T} \boldsymbol{A} \boldsymbol{x}-2 \boldsymbol{A}^{T} \boldsymbol{b}$

我们令这个导数等于零，即 $\boldsymbol{A}^T\boldsymbol{A}\boldsymbol{x}=\boldsymbol{A}^T\boldsymbol{b}$ 一定有解的，因为 $\operatorname{tr}(\boldsymbol{A}^T\boldsymbol{A})=\operatorname{tr}(\boldsymbol{A}^T\boldsymbol{b})$ 。

详细证明我还没学…。

No_one-_-2022

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
矩阵求导——学习笔记

矩阵、向量求导法则，我们这里默认的是分母布局一、基本定理1.1 对元素求导行向量设 yT=[y1…yn]\mathbf{y}^T=[y_1 \dots y_n]yT=[y1…yn] 是行向量，xxx 是元素，则∂yT∂x=[∂y1∂x⋯∂yn∂x]\frac{\partial \mathbf{y}^{T}}{\partial x}=\left[\begin{array}{lll}\frac{\partial y_{1}}{\partial x} & \cdots & \f
复制链接

扫一扫