矩阵求导之五：机器学习中的常用公式（上）

OlivePlum

已于 2024-04-05 16:37:07 修改

阅读量120

点赞数

分类专栏：矩阵求导文章标签：机器学习矩阵概率论

于 2023-10-22 13:30:46 首次发布

本文链接：https://blog.csdn.net/weixin_43283275/article/details/133958905

版权

矩阵求导专栏收录该内容

6 篇文章 0 订阅

订阅专栏

在了解了矩阵求导的定义之后，可以借助定义进行一些机器学习中常用公式的推导。约定 $\boldsymbol{x}$ 为 $n$ 维列向量：
$\boldsymbol{x}=\left[ \begin{matrix} x_1& x_2& \cdots& x\\ \end{matrix}_n \right] ^T$

结论一

$\frac{\partial a}{\partial \boldsymbol{x}}=0$
【证明】
$\frac{\partial a}{\partial \boldsymbol{x}}=\left[ \begin{matrix} \frac{\partial a}{\partial x_1}& \frac{\partial a}{\partial x_2}& \cdots& \frac{\partial a}{\partial x_n}\\ \end{matrix} \right] ^T=\left[ \begin{matrix} 0& 0& \cdots& 0\\ \end{matrix} \right] ^T$

结论二

$\frac{\partial \left( \boldsymbol{x}^T\cdot \boldsymbol{A} \right)}{\partial \boldsymbol{x}}=\frac{\partial \left( \boldsymbol{A}^T\cdot \boldsymbol{x} \right)}{\partial \boldsymbol{x}}=\boldsymbol{A}$
【证明】
记
$\boldsymbol{A}=\left[ \begin{matrix} {\boldsymbol{\alpha }_1}^T& {\boldsymbol{\alpha }_2}^T& \cdots& {\boldsymbol{\alpha }_n}^T\\ \end{matrix} \right] ^T$
其中：
$\boldsymbol{\alpha }_i=\left[ \begin{matrix} a_{i1}& a_{i2}& \cdots& a_{in}\\ \end{matrix} \right] ^T$
则有：
$\begin{aligned} \frac{\partial \left( \boldsymbol{x}^T\cdot \boldsymbol{A} \right)}{\partial \boldsymbol{x}}&=\frac{\partial \left( \boldsymbol{A}^T\cdot \boldsymbol{x} \right)}{\partial \boldsymbol{x}} \\ &=\frac{\partial \left( x_1\cdot {\boldsymbol{\alpha }_1}^T+x_2\cdot {\boldsymbol{\alpha }_2}^T+\cdots +x_n\cdot {\boldsymbol{\alpha }_n}^T \right)}{\partial \boldsymbol{x}} \\ &=\left[ \begin{array}{c} \frac{\partial \left( x_1\cdot {\boldsymbol{\alpha }_1}^T+x_2\cdot {\boldsymbol{\alpha }_2}^T+\cdots +x_n\cdot {\boldsymbol{\alpha }_n}^T \right)}{\partial x_1}\\ \\ \frac{\partial \left( x_1\cdot {\boldsymbol{\alpha }_1}^T+x_2\cdot {\boldsymbol{\alpha }_2}^T+\cdots +x_n\cdot {\boldsymbol{\alpha }_n}^T \right)}{\partial x_2}\\ \\ \vdots\\ \\ \frac{\partial \left( x_1\cdot {\boldsymbol{\alpha }_1}^T+x_2\cdot {\boldsymbol{\alpha }_2}^T+\cdots +x_n\cdot {\boldsymbol{\alpha }_n}^T \right)}{\partial x_n}\\ \end{array} \right] \\ &=\left[ \begin{array}{c} {\boldsymbol{\alpha }_1}^T\\ \\ {\boldsymbol{\alpha }_2}^T\\ \\ \vdots\\ \\ {\boldsymbol{\alpha }_n}^T\\ \end{array} \right] =A \end{aligned}$

结论三

$\frac{\partial \boldsymbol{x}^T\boldsymbol{x}}{\partial \boldsymbol{x}}=2\boldsymbol{x}$
【证明】设
$\boldsymbol{x}=\left[ x_1,x_2,\cdots ,x_m \right] ^T$

$f\left( \boldsymbol{x} \right) =\boldsymbol{x}^T\boldsymbol{x}={x_1}^2+{x_2}^2+\cdots +{x_n}^2$

$\frac{\partial f}{\partial \boldsymbol{x}}=\left[ \begin{array}{c} \frac{\partial f}{\partial x_1}\\ \\ \frac{\partial f}{\partial x_2}\\ \\ \vdots\\ \\ \frac{\partial f}{\partial x_n}\\ \end{array} \right] =\left[ \begin{array}{c} 2x_1\\ \\ 2x_2\\ \\ \vdots\\ \\ 2x_n\\ \end{array} \right] =2\boldsymbol{x}$
即：
$\frac{\partial \boldsymbol{x}^T\boldsymbol{x}}{\partial \boldsymbol{x}}=2\boldsymbol{x}$

结论四

$\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{Ax} \right)}{\partial \boldsymbol{x}}=\boldsymbol{Ax}+\boldsymbol{A}^T\boldsymbol{x}$
【证明】
$\begin{aligned} \boldsymbol{x}^T\boldsymbol{Ax}&=\left[ \begin{matrix} x_1& x_2& \cdots& x_n\\ \end{matrix} \right] \cdot \left[ \begin{matrix} a_{11}& a_{12}& \cdots& a_{1n}\\ a_{21}& a_{22}& \cdots& a_{2n}\\ \vdots& \vdots& \ddots& \vdots\\ a_{n1}& a_{n2}& \cdots& a_{nn}\\ \end{matrix} \right] \cdot \left[ \begin{array}{c} x_1\\ x_2\\ \vdots\\ x_n\\ \end{array} \right] \\ &=\left[ \begin{matrix} x_1a_{11}+x_2a_{21}+\cdots +x_na_{n1}& x_1a_{12}+x_2a_{22}+\cdots +x_na_{n2}& \cdots& x_1a_{1n}+x_2a_{2n}+\cdots +x_na_{nn}\\ \end{matrix} \right] \cdot \left[ \begin{array}{c} x_1\\ x_2\\ \vdots\\ x_n\\ \end{array} \right] \\ &=x_1\left( x_1a_{11}+x_2a_{21}+\cdots +x_na_{n1} \right) +x_2\left( x_1a_{12}+x_2a_{22}+\cdots +x_na_{n2} \right) +\cdots +x_n\left( x_1a_{1n}+x_2a_{2n}+\cdots +x_na_{nn} \right) \end{aligned}$
记
$f\left( \boldsymbol{x} \right) =\boldsymbol{x}^T\boldsymbol{Ax}$
则：
$\frac{\partial f\left( \boldsymbol{x} \right)}{\partial x_1}=\left( x_1a_{11}+x_2a_{21}+\cdots +x_na_{n1} \right) +\left( x_1a_{11}+x_2a_{12}+\cdots +x_na_{1\boldsymbol{n}} \right)$
$\begin{aligned} \frac{\partial f\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}&=\left[ \begin{array}{c} \frac{\partial f\left( \boldsymbol{x} \right)}{\partial x_1}\\ \\ \frac{\partial f\left( \boldsymbol{x} \right)}{\partial x_2}\\ \\ \vdots\\ \\ \frac{\partial f\left( \boldsymbol{x} \right)}{\partial x_n}\\ \end{array} \right] =\left[ \begin{array}{c} \left( x_1a_{11}+x_2a_{21}+\cdots +x_na_{n1} \right) +\left( x_1a_{11}+x_2a_{12}+\cdots +x_na_{1n} \right)\\ \\ \left( x_1a_{12}+x_2a_{22}+\cdots +x_na_{n2} \right) +\left( x_1a_{21}+x_2a_{22}+\cdots +x_na_{2n} \right)\\ \\ \vdots\\ \\ \left( x_1a_{1n}+x_2a_{2n}+\cdots +x_na_{nn} \right) +\left( x_1a_{n1}+x_2a_{n2}+\cdots +x_na_{nn} \right)\\ \end{array} \right] \\ \\ &=\left[ \begin{array}{c} x_1a_{11}+x_2a_{21}+\cdots +x_na_{n1}\\ \\ x_1a_{12}+x_2a_{22}+\cdots +x_na_{n2}\\ \\ \vdots\\ \\ x_1a_{1n}+x_2a_{2n}+\cdots +x_na_{nn}\\ \end{array} \right] +\left[ \begin{array}{c} x_1a_{11}+x_2a_{12}+\cdots +x_na_{1n}\\ \\ x_1a_{21}+x_2a_{22}+\cdots +x_na_{2n}\\ \\ \vdots\\ \\ x_1a_{n1}+x_2a_{n2}+\cdots +x_na_{nn}\\ \end{array} \right] \\ \\ &=\left[ \begin{matrix} a_{11}& a_{21}& \cdots& a_{n1}\\ a_{12}& a_{22}& \cdots& a_{n2}\\ \vdots& \vdots& \ddots& \vdots\\ a_{1n}& a_{2n}& \cdots& a_{nn}\\ \end{matrix} \right] \cdot \left[ \begin{array}{c} x_1\\ x_2\\ \vdots\\ x_n\\ \end{array} \right] +\left[ \begin{matrix} a_{11}& a_{12}& \cdots& a_{1n}\\ a_{21}& a_{22}& \cdots& a_{2n}\\ \vdots& \vdots& \ddots& \vdots\\ a_{n1}& a_{n2}& \cdots& a_{nn}\\ \end{matrix} \right] \cdot \left[ \begin{array}{c} x_1\\ x_2\\ \vdots\\ x_n\\ \end{array} \right] \\ \\ &=\boldsymbol{A}^T\boldsymbol{x}+\boldsymbol{Ax} \end{aligned}$

结论五

$\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{a} \right)}{\partial \boldsymbol{x}}=\frac{\partial \left( \boldsymbol{a}^T\boldsymbol{x} \right)}{\partial \boldsymbol{x}}=\boldsymbol{a}$
其中 $\boldsymbol{a}$ 为常数向量：
$\boldsymbol{a}=\left[ \begin{matrix} a_1& a_2& \cdots& a_n\\ \end{matrix} \right] ^T$
【证明】
$\begin{aligned} \frac{\partial \left( \boldsymbol{x}^T\boldsymbol{a} \right)}{\partial \boldsymbol{x}}&=\frac{\partial \left( \boldsymbol{a}^T\boldsymbol{x} \right)}{\partial \boldsymbol{x}} \\ \\ &=\frac{\partial \left( x_1a_1+x_2a_2+\cdots +x_na_n \right)}{\partial \boldsymbol{x}} \\ \\ &=\left[ \begin{array}{c} \frac{\partial \left( x_1a_1+x_2a_2+\cdots +x_na_n \right)}{\partial x_1}\\ \\ \frac{\partial \left( x_1a_1+x_2a_2+\cdots +x_na_n \right)}{\partial x_2}\\ \\ \vdots\\ \\ \frac{\partial \left( x_1a_1+x_2a_2+\cdots +x_na_n \right)}{\partial x_n}\\ \\ \end{array} \right] \\ &=\left[ \begin{array}{c} a_1\\ \\ a_2\\ \\ \vdots\\ \\ a_n\\ \end{array} \right] \\ &=\boldsymbol{a} \end{aligned}$

结论六

$\frac{\partial \left( \boldsymbol{a}^T\boldsymbol{xx}^T\boldsymbol{b} \right)}{\partial \boldsymbol{x}}=\boldsymbol{ab}^T\boldsymbol{x}+\boldsymbol{ba}^T\boldsymbol{x}$
其中 $\boldsymbol{a}$ ， $\boldsymbol{b}$ 为常数向量：
$\boldsymbol{a}=\left[ \begin{matrix} a_1& a_2& \cdots& a_n\\ \end{matrix} \right] ^T \\ \ \ \\ \boldsymbol{b}=\left[ \begin{matrix} b_1& b_2& \cdots& b_n\\ \end{matrix} \right] ^T$
【证明】
因为 $\boldsymbol{a}^T\boldsymbol{x}=\boldsymbol{x}^T\boldsymbol{a}, \boldsymbol{x}^T\boldsymbol{b}=\boldsymbol{b}^T\boldsymbol{x}$ ，所以有：
$\frac{\partial \left( \boldsymbol{a}^T\boldsymbol{xx}^T\boldsymbol{b} \right)}{\partial \boldsymbol{x}}=\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{ab}^T\boldsymbol{x} \right)}{\partial \boldsymbol{x}}$
又因为 $\boldsymbol{ab}^T$ 是 $n\times n$ 的常数矩阵，由结论四可知：
$\frac{\partial \left( \boldsymbol{a}^T\boldsymbol{xx}^T\boldsymbol{b} \right)}{\partial \boldsymbol{x}}=\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{ab}^T\boldsymbol{x} \right)}{\partial \boldsymbol{x}}=\boldsymbol{ab}^T\boldsymbol{x}+\boldsymbol{ba}^T\boldsymbol{x}$

结论七

$\frac{\partial \left( \boldsymbol{a}^T\boldsymbol{Xb} \right)}{\partial \boldsymbol{X}}=\boldsymbol{ab}^T$
其中 $\boldsymbol{a}$ ， $\boldsymbol{b}$ 为常数向量：
$\boldsymbol{a}=\left[ \begin{matrix} a_1& a_2& \cdots& a_m\\ \end{matrix} \right] ^T \\ \ \ \\ \boldsymbol{b}=\left[ \begin{matrix} b_1& b_2& \cdots& b_n\\ \end{matrix} \right] ^T$
【证明】
$\begin{aligned} \boldsymbol{a}^T\boldsymbol{Xb}&=\left[ \begin{matrix} a_1& a_2& \cdots& a_m\\ \end{matrix} \right] \cdot \left[ \begin{matrix} x_{11}& x_{12}& \cdots& x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots& \vdots& \ddots& \vdots\\ x_{m1}& x_{m2}& \cdots& x_{mn}\\ \end{matrix} \right] \cdot \left[ \begin{array}{c} b_1\\ b_2\\ \vdots\\ b_n\\ \end{array} \right] \\ &=\left[ \begin{matrix} a_1x_{11}+a_2x_{21}+\cdots +a_ma_{m1}& a_1x_{12}+a_2x_{22}+\cdots +a_ma_{m2}& \cdots& a_1x_{1n}+a_2x_{2n}+\cdots +a_ma_{mn}\\ \end{matrix} \right] \cdot \left[ \begin{array}{c} b_1\\ b_2\\ \vdots\\ b_n\\ \end{array} \right] \\ &=b_1\left( a_1x_{11}+a_2x_{21}+\cdots +a_ma_{m1} \right) +b_2\left( a_1x_{12}+a_2x_{22}+\cdots +a_ma_{m2} \right) +\cdots +b_n\left( a_1x_{1n}+a_2x_{2n}+\cdots +a_ma_{mn} \right) \end{aligned}$
记
$f\left( \boldsymbol{X} \right) =\boldsymbol{a}^T\boldsymbol{Xb}$
则：
$\begin{aligned} \frac{\partial \left( \boldsymbol{a}^T\boldsymbol{Xb} \right)}{\partial \boldsymbol{X}}&=\frac{\partial f\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}} \\ \\ &=\left[ \begin{matrix} \frac{\partial f}{\partial x_{11}}& \frac{\partial f}{\partial x_{12}}& \cdots& \frac{\partial f}{\partial x_{1n}}\\ \\ \frac{\partial f}{\partial x_{21}}& \frac{\partial f}{\partial x_{22}}& \cdots& \frac{\partial f}{\partial x_{2n}}\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ \frac{\partial f}{\partial x_{m1}}& \frac{\partial f}{\partial x_{m2}}& \cdots& \frac{\partial f}{\partial x_{mn}}\\ \end{matrix} \right] _{m\times n} \\ \\ &=\left[ \begin{matrix} a_1b_1& a_1b_2& \cdots& a_1b_n\\ \\ a_2b_1& a_2b_2& \cdots& a_2b_n\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ a_mb_1& a_mb_2& \cdots& a_mb_n\\ \end{matrix} \right] _{m\times n} \\ \\ &=\left[ \begin{array}{c} a_1\\ \\ a_2\\ \\ \vdots\\ \\ a_m\\ \end{array} \right] \cdot \left[ \begin{matrix} b_1& b_2& \cdots& b_n\\ \end{matrix} \right] \\ \\ &=\boldsymbol{ab}^T \end{aligned}$