人工智能基础数学之矩阵求导快速入门

joejoeqian

于 2023-03-03 16:26:00 发布

阅读量150

点赞数

分类专栏：机器学习 Pytorch学习文章标签：矩阵人工智能线性代数

本文链接：https://blog.csdn.net/joejoeqian/article/details/129322608

版权

机器学习同时被 2 个专栏收录

12 篇文章 4 订阅

订阅专栏

Pytorch学习

4 篇文章 0 订阅

订阅专栏

文章目录

0.参考链接
1.标量函数和向量函数
2.求导法(YX拉伸法)(重点)
3.常见的矩阵求导公式推导
4.矩阵求导布局
5.矩阵求导的乘法和加法公式

0.参考链接

矩阵求导

1.标量函数和向量函数

$\begin{cases} y_1=w_1x_{11}+w_2x_{12}+\cdots+w_nx_{1n} \\ \vdots \\ y_m=w_1x_{m1}+w_2x_{m2}+\cdots+w_nx_{mn} \end{cases}$

1.1标量函数：

1.输出为标量的函数为标量函数：
输入，输出都是标量：
$f(x)=x^2,\R_x \rightarrow \R_{x^2}$
输入不是标量，输出是标量：
$f(x)=x_1^2+x_2^2,\R^2_{(x_1,x_2)^T} \rightarrow \R_{x_1^2+x_2^2}$

2.输出为向量的函数为向量函数：
输入是标量，输出是向量：
$f(x)=\left[ \begin{matrix}f_1(x)=x \\ f_2(x)=x^2\end{matrix} \right],\R_x \rightarrow \R^2_{(x,x^2)^T}$
输入，输出都是向量：
$f(x)=\left[ \begin{matrix}f_{11}(x)=x & f_{12}(x)=x^2\\f_{21}(x)=x^3 & f_{22}(x)=x^4\end{matrix} \right],\R_x \rightarrow \R^{2*2}$

$f(x)=\left[ \begin{matrix}f_{11}(x)=x_1+x_2 & f_{12}(x)=x_1^2+x_2^2\\f_{21}(x)=x_1^3+x_2^3 & f_{22}(x)=x_1^4+x_2^4\end{matrix} \right],\R^2_{(x_1,x_2)^T} \rightarrow \R^{2*2}$

1.2总结

$x\rightarrow 标量，向量，矩阵\\f(x)\rightarrow 标量，向量，矩阵$
只看标量和向量，那 $\frac{df(x)}{dx}$ 就有四种可能。
矩阵求导的本质： $\frac{dA}{dB}$ 就是矩阵 $A$ 中的每一个元素对矩阵 $B$ 中的每一个元素求导。

1.3从求导后元素个数的角度

$A_{1*1},B_{1*1} \rightarrow \frac{dA}{dB}_{1*1}$ ，
$A_{1*p},B_{1*n} \rightarrow \frac{dA}{dB}_{p*n}$ ,
$A_{q*p},B_{m*n} \rightarrow \frac{dA}{dB}_{p*q*m*n}$

2.求导法(YX拉伸法)(重点)

$\begin{cases} 1.标量不变，向量拉伸 \\ 2.前面横向拉，后面纵向拉 \end{cases}$
以下是三个例子：
例1： $\frac{df(x)}{dx},f(x)=f(x_1,\cdots,x_n)是标量函数,x=[x_1,x_2,\cdots,x_n]^T是向量$ ，
$\frac{df(x)}{dx}=\left[ \begin{matrix}\frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2}\\ \vdots\\\frac{\partial f(x)}{\partial x_n}\end{matrix} \right]$ ，可以看出结果是 $f (x)$ 是标量不变， $x$ 是向量纵向拉伸，实际就是将多元函数的偏导数写在一个列向量中。

例2： $\frac{df(x)}{dx},f(x)=\left[ \begin{matrix}f_1(x)\\ f_2(x)\\\vdots\\f_n(x)\end{matrix} \right]是向量函数,x是标量$ ， $\frac{df(x)}{dx}=\left[ \begin{matrix}\frac{\partial f_1(x)}{\partial x} &\frac{\partial f_2(x)}{\partial x}& \cdots&\frac{\partial f_n(x)}{\partial x}\end{matrix} \right]$ ，符合前面横向拉伸。

例3： $\frac{df(x)}{dx},f(x)=\left[ \begin{matrix}f_1(x)\\ f_2(x)\\\vdots\\f_n(x)\end{matrix} \right]是向量函数,[x_1,x_2,\cdots,x_n]^T是向量$ ，
$\frac{df(x)}{dx} =\left[ \begin{matrix} \frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2}\\ \vdots\\ \frac{\partial f(x)}{\partial x_n} \end{matrix} \right]$ ，此时 $\partial f(x)$ 是向量，而 $x_1$ 等是标量，所以 $\frac{df(x)}{dx} =\left[\begin{matrix} \frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2}\\ \vdots\\ \frac{\partial f(x)}{\partial x_n} \end{matrix} \right] =\left[ \begin{matrix} \frac{\partial f_1(x)}{\partial x_1} & \frac{\partial f_2(x)}{\partial x_1} & \cdots &\frac{\partial f_n(x)}{\partial x_1} &\\ \frac{\partial f_1(x)}{\partial x_2}& \frac{\partial f_2(x)}{\partial x_2}&\cdots & \frac{\partial f_n(x)}{\partial x_2}&\\ \vdots & \vdots & \cdots & \vdots\\ \frac{\partial f_1(x)}{\partial x_n} & \frac{\partial f_2(x)}{\partial x_n} & \cdots & \frac{\partial f_n(x)}{\partial x_n}\end{matrix} \right]$ ，符合先纵向拉伸，再横向拉伸。

3.常见的矩阵求导公式推导

例1： $f(x)=A^TX,A=\left[\begin{matrix}a_1\\a_2\\\vdots\\a_n\end{matrix} \right]_{n*1},X=\left[\begin{matrix}x_1\\x_2\\\vdots\\x_n\end{matrix} \right]_{n*1},求\frac{df(x)}{dx}$
解： $f(x)是标量函数，X是向量，f(x)=A^TX=\sum_{i=1}^na_ix_i$
$\frac{df(x)}{dX}=\left[ \begin{matrix}\frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2}\\ \vdots\\\frac{\partial f(x)}{\partial x_n}\end{matrix} \right]=\left[ \begin{matrix}a_1 \\ a_2\\ \vdots \\ a_n\end{matrix} \right]=A$ ，注意到， $f(x)=A^TX=X^TA（标量^T=标量）$ ，所以 $\frac{dA^TX}{dX}=\frac{dX^TA}{dX}=A$ 。

例2， $f(x)=X^TAX,X=\left[\begin{matrix}x_1\\x_2\\\vdots\\x_n\end{matrix} \right]_{n*1},A=\left[\begin{matrix}a_{11}& a_{12}&\cdots&a_{1n}\\a_{21}& a_{22}&\cdots&a_{2n}\\\vdots&\vdots&\cdots&\vdots\\a_{n1}& a_{n2}&\cdots&a_{nn}\end{matrix} \right]_{n*n},求\frac{df(x)}{dX}$
解： $f(x)=X^TAX是标量函数$ ，
$\left[\begin{matrix} x_1&x_2&\cdots&x_n \end{matrix} \right] \cdot \left[\begin{matrix} a_{11}& a_{12}&\cdots&a_{1n}\\ a_{21}& a_{22}&\cdots&a_{2n}\\ \vdots&\vdots&\cdots&\vdots\\ a_{n1}& a_{n2}&\cdots&a_{nn} \end{matrix} \right] \cdot \left[\begin{matrix} x_1\\ x_2\\ \vdots\\ x_n \end{matrix} \right]$

$f(x)=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_ix_j$ ,

$\begin{aligned}\frac{df(x)}{dX}& =\left[ \begin{matrix} \frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2}\\ \vdots\\ \frac{\partial f(x)}{\partial x_n} \end{matrix} \right]\\& =\left[ \begin{matrix} \sum_{j=1}^na_{1j}x_j+\sum_{j=1}^na_{i1}x_i \\ \sum_{j=1}^na_{2j}x_j+\sum_{i=1}^na_{i2}x_i\\ \vdots \\ \sum_{j=1}^na_{nj}x_j+\sum_{i=1}^na_{in}x_i \end{matrix} \right]\\& =\left[ \begin{matrix} \sum_{j=1}^na_{1j}x_j\\ \sum_{j=1}^na_{2j}x_j\\ \vdots \\ \sum_{j=1}^na_{nj}x_j \end{matrix} \right] + \left[ \begin{matrix} \sum_{j=1}^na_{i1}x_i \\ \sum_{i=1}^na_{i2}x_i\\ \vdots \\ \sum_{i=1}^na_{in}x_i \end{matrix} \right]\\& =\left[\begin{matrix} a_{11}& a_{12}&\cdots&a_{1n}\\ a_{21}& a_{22}&\cdots&a_{2n}\\ \vdots&\vdots&\cdots&\vdots\\ a_{n1}& a_{n2}&\cdots&a_{nn} \end{matrix} \right] \cdot \left[\begin{matrix} x_1\\ x_2\\ \vdots\\ x_n \end{matrix} \right]\\& + \left[\begin{matrix} a_{11}& a_{12}&\cdots&a_{1n}\\ a_{21}& a_{22}&\cdots&a_{2n}\\ \vdots&\vdots&\cdots&\vdots\\ a_{n1}& a_{n2}&\cdots&a_{nn} \end{matrix} \right]^T \cdot \left[\begin{matrix} x_1\\ x_2\\ \vdots\\ x_n \end{matrix} \right]\\& =AX+A^TX=(A+A^T)X \end{aligned}$ ，所以 $\frac{dX^TAX}{dX}=(A+A^T)X$ ，特别地， $(X^TAX)^T=X^TA^TX，\frac{dX^TA^TX}{dX}=(A+A^T)X$

4.矩阵求导布局

$\begin{cases} 分母布局\rightarrow YX拉伸\\ 分子布局 \rightarrow XY拉伸 \end{cases}$
区别：总的不变：前面横向拉，后面纵向拉。
YX拉伸（分母布局），Y横向（f(x)），X纵向拉。
XY拉伸（分子布局），相反
通常 $分母布局)^T=(分子布局)$
例： $f(x)=X^TX,X=[x_1,x_2,\cdots,x_n]^T$
分母布局：
$\frac{df(x)}{dx} =\left[ \begin{matrix} \frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2}\\ \vdots\\ \frac{\partial f(x)}{\partial x_n} \end{matrix} \right] =\left[ \begin{matrix} 2 x_1 \\ 2 x_2 \\ \vdots\\ 2 x_n \end{matrix} \right] =2X$
分子布局：
$\frac{df(x)}{dx} =\left[ \begin{matrix} \frac{\partial f(x)}{\partial x_1} & \frac{\partial f(x)}{\partial x_2}& \cdots & \frac{\partial f(x)}{\partial x_n} \end{matrix} \right] =\left[ \begin{matrix} 2x_1 & 2x_2 & \cdots & 2x_n \end{matrix} \right] =2X^T$

5.矩阵求导的乘法和加法公式

$U=\left[ \begin{matrix} u_1(x)\\ u_2(x) \\ \vdots\\ u_n(x) \end{matrix} \right]_{n*1}, V=\left[ \begin{matrix} v_1(x)\\ v_2(x) \\ \vdots\\ v_n(x) \end{matrix} \right]_{n*1}, X=\left[ \begin{matrix} x_1\\ x_2 \\ \vdots\\ x_n \end{matrix} \right]_{n*1}$
注意到 $U^TV$ 是标量
$\frac{dU^TV}{dX} =\frac{\partial U} {\partial X}V +\frac{\partial V} {\partial X}U$