矩阵求导的基本方法

最新推荐文章于 2022-11-04 15:55:45 发布

GGN_2015

最新推荐文章于 2022-11-04 15:55:45 发布

阅读量1.8k

点赞数 5

分类专栏：数学文章标签：线性代数机器学习深度学习

本文链接：https://blog.csdn.net/GGN_2015/article/details/120568526

版权

数学专栏收录该内容

32 篇文章 2 订阅

订阅专栏

文章目录

前言
一些约定
规则零： $\frac{\partial c}{\partial \theta}=0$
规则一： $\frac{\partial \left(X^T\theta\right)}{\partial \theta}=X^T;\frac{\partial \left(\theta^TX\right)}{\partial \theta}=X$
规则二： $\frac{\partial (A^TB)}{\partial \theta}=\frac{\partial A^T}{\partial \theta}\cdot B+\frac{\partial B^T}{\partial \theta}\cdot A=A'B+B'A$
规则三： $\frac{\partial \left(\theta^TX^TX\theta\right)}{\partial \theta}=2X^TX\theta$
- 从乘积角度证明
- 从二次型角度证明
规则四： $\frac{\partial \left( X^T\theta\right)^m}{\partial \theta}=mX\left(X^T\theta\right)^{m-1}$
应用求导公式
- 利用求导公式计算最小二乘法的解

前言

在学习最小二乘法线性回归时，对利用矩阵求逆计算最优解的做法感到疑惑，于是试图总结了一点点关于“标量对向量求导”的方法。由于没有参考太多资料，文章中可能充满了大大小小的错误，因此，如有谬误，欢迎各位读者以各种形式指出。

感谢我的室友胡佬的大力支持，没有他的支持，我可能没有勇气把这些公式整理成一篇博客。

一些约定

不加说明的，提到“向量”，都指“列向量”；
不加说明的，下文中所有求导过程均以 $\theta$ 为自变量；
倘若 $y$ 是标量函数， $\theta=(\theta_1\cdots \theta_n)^T$ 是变量向量，我们称 $y$ 对 $\theta$ 的导数为 $\frac{\partial y}{\partial \theta}=\left(\frac{\partial y}{\partial \theta_1},\cdots,\frac{\partial y}{\partial \theta_n}\right)^T$ 。更一般地，我们要求梯度向量 $\frac{\partial y}{\partial \theta}$ 与 $\theta$ 的系数向量具有 相同的形状（即行数、列数分别对应相等）；
若 $A=(a_1,\cdots,a_m)^T$ 是向量函数， $\theta=(\theta_1\cdots \theta_n)^T$ 是变量向量，则我们约定 $A'=\frac{\partial A^T}{\partial \theta}$ ，其中 $A^{'}$ 是一个 $n$ 行 $m$ 列的函数矩阵，其中 $A_{ij}=\frac{\partial A_j}{\partial \theta_i}$ ，即 $A^{'}$ 中每行对应一个自变量，每列对应一个因变量。定义 $A'_i$ 表示矩阵 $A^{'}$ 的第 $i$ 行，即 $A'_i=\left[a_1',\cdots,a_m'\right]_{\theta_i}$ ，是一个 $m$ 维 行向量；
转置原则，即：
$\frac{\partial A^T}{\partial \theta}=\left(\frac{\partial A}{\partial \theta}\right)^T$

规则零： $\frac{\partial c}{\partial \theta}=0$

设 $c$ 为标量常量， $\theta=(\theta_1,\cdots,\theta_n)^T$ 为所有自变量构成的向量。 $c$ 是常量，所以求导结果为 $0=\overbrace {(0,\cdots,0)^T}^{n 个 0}$ 。

规则一： $\frac{\partial \left(X^T\theta\right)}{\partial \theta}=X^T;\frac{\partial \left(\theta^TX\right)}{\partial \theta}=X$

若 $X=(x_1,\cdots,x_n)^T$ 为常向量，因此：

$\theta^TX=x_1\theta_1+\cdots +x_n\theta_n$

根据约定 3 得到：
$\frac{\partial \left(\theta^T X\right)}{\partial \theta}=(x_1,\cdots,x_n)^T=X$

通过转置原则得到

$\frac{\partial \left(X^T\theta\right)}{\partial \theta}=\left(\frac{\partial \left(\theta^T X\right)}{\partial \theta}\right)^T=X^T$

若 $X$ 是一个 $n\times m$ 的常矩阵，现在只考虑 $\theta^T X$ 关于 $\theta$ 求导，根据矩阵乘法的性质，可以得知： $\theta^TX$ 是一个 $1\times m$ 的行向量，关于 $\theta$ 求导可以得到一个 $n\times m$ 的矩阵。

考虑某一个自变量 $\theta_i$ ，有：
$\frac{\partial \left(\theta^TX\right)}{\partial \theta_i}=(X_{i1},\cdots,X_{im})=X_i$
究其原因， $X$ 中与 $\theta_i$ 相乘的元素只有 $X$ 的第 $i$ 行中的元素。因此：

$\frac{\partial \left(\theta^TX\right)}{\partial \theta}=\left[ \begin{matrix} X_1\\ \vdots\\ X_n \end{matrix} \right]=X$

若 $X$ 是一个 $n\times m$ 的常矩阵，现在考虑 $\frac{\partial (X^T\theta)}{\partial \theta}$ 。此时， $F=X^T\theta$ 是一个 $m\times 1$ 的列向量，不符合前文中定义的求导规则（前文中的求导规则要求 $m$ 维行向量函数对 $n$ 维列向量求导，得到 $n\times m$ 的梯度矩阵）。由转置原则，得到：

$\frac{\partial (X^T\theta)}{\partial \theta}=\left(\frac{\partial \left(\theta^TX\right)}{\partial \theta}\right)^T=X^T$

规则二： $\frac{\partial (A^TB)}{\partial \theta}=\frac{\partial A^T}{\partial \theta}\cdot B+\frac{\partial B^T}{\partial \theta}\cdot A=A'B+B'A$

据我观察，这条规则可以推导出本文中的所有规则。

设 $A=(a_1,\cdots,a_m)^T$ 是向量函数，设 $B=(b_1,\cdots,b_m)^T$ 也是向量函数，此时 $A^TB$ 为标量函数:

$A^TB=a_1b_1+\cdots +a_mb_m$
考虑某个自变量 $\theta_i$ ：

$\begin{aligned} \frac{\partial \left(A^TB\right)}{\partial \theta_i} &=\left[\left(a_1'b_1+a_1b_1'\right)+\cdots +\left(a_m'b_m+a_mb_m'\right)\right]_{\theta_i}\\ &=(a_1',\cdots,a_m')\cdot(b_1,\cdots,b_m)^T+(a_1,\cdots,a_n)\cdot(b_1',\cdots,b_n')^T\\ &=A'_iB+B'_iA\\ \end{aligned}$

因此得到：

$\frac{\partial \left(A^TB\right)}{\partial \theta}=\left[ \begin{matrix} A_1'B+B_1'A\\ \vdots\\ A_n'B+B_n'A \end{matrix} \right]=\left[ \begin{matrix} A_1'\\ \vdots\\ A_n' \end{matrix} \right]\cdot B+\left[ \begin{matrix} B_1'\\ \vdots\\ B_n' \end{matrix} \right]\cdot A=A'B+B'A$

这个公式具有很简洁的形式，十分类似标量函数中乘积导数的求法。

规则三： $\frac{\partial \left(\theta^TX^TX\theta\right)}{\partial \theta}=2X^TX\theta$

从乘积角度证明

这个公式在计算最小二乘估计的最优参数时有着重要的最用。其中 $X$ 是一个 $m\times n$ 的矩阵， $\theta$ 是一个 $n\times 1$ 的列向量。因此 $X\theta$ 为 $m\times 1$ 的列向量。

不难发现，令 $A=B=X\theta$ 即可带入规则二计算导数:

$\frac{\partial \left(\theta^TX^TX\theta\right)}{\partial \theta}=A'B+B'A=(X^T)X\theta+(X^T)X\theta=2X^TX\theta$

从二次型角度证明

这个结论是比较显然的，因为 $\theta^TX^TX\theta$ 是以 $\theta$ 为变量的二次型，其中 $A=X^TX$ 一定是 $n$ 阶对称矩阵。有：

$\theta^TA\theta=\sum_{i=1}^n\sum_{j=1}^n\theta_i\theta_jA_{ij}$

考虑对某个 $\theta_k$ 求导，列出与 $\theta_k$ 有关的所有项：

$(\theta^TA\theta)'_{\theta_k}=\left(2\theta_k\left(\sum_{j=1,j\neq k}^n\theta_jA_{kj}\right)+\theta_k^2A_{kk}\right)'=\left(2\sum_{j=1,j\neq k}^{n}\theta_jA_{kj}\right)+2\theta_kA_{kk}=2\sum_{j=1}^{n}\theta_jA_{kj}=2A_k\theta$

二倍是因为，叠加了第 $k$ 行和第 $k$ 列。单独加一个 $A_{kk}$ 是为了防止重复覆盖。

因此：

$\frac{\partial \left(\theta^TA\theta\right)}{\partial \theta}=\left[ \begin{matrix} 2A_1\theta\\ \vdots\\ 2A_n\theta \end{matrix} \right]=2A\theta=2X^TX\theta$

规则四： $\frac{\partial \left( X^T\theta\right)^m}{\partial \theta}=mX\left(X^T\theta\right)^{m-1}$

其中 $X=(x_1,\cdots, x_n)^T$ 是常列向量， $X^T\theta$ 是标量函数。

对于 $m = 2$ 带入规则三 验证即可:

$\left(X^T\theta\right)^2=\left(X^T\theta\right)\cdot\left(X^T\theta\right)=\left(X^T\theta\right)^T\cdot \left(X^T\theta\right)=\theta^TXX^T\theta$

由于 $X^T\theta$ 是标量，所以转置并不会影响计算的结果，令 $A=B=X^T\theta$ 解得 $\frac{\partial \left( X^T\theta\right)^2}{\partial \theta}=2XX^T\theta$

应用求导公式

利用求导公式计算最小二乘法的解

设 $m\times n$ 矩阵 $X$ 是数据特征，其中每一行表示一个散点坐标，每一列表示一个特征。 $\times 1$ 列向量 $\theta$ 是所有回归系数， $m\times 1$ 向量 $Y$ 是数据标签，每行是一个数据对应的标签。最小二乘法要解决的问题为“找到让代价函数最小化的系数组 $\theta$ ”，即：

$\min_\theta\{(X\theta-Y)^2\}$

其中 $X\theta-Y$ 是一个 $m\times 1$ 的向量，我们定义：

$(X\theta-Y)^2=(X\theta-Y)^T(X\theta-Y)=\theta^TX^TX\theta-\theta^TX^TY-Y^TX\theta+Y^TY$

按照上述求导法则对上式求导（为了最终得到一个 $n\times 1$ 的梯度向量， $\left(Y^TX\theta\right)'=X^TY$ 而不是取 $Y^TX$ ）：

$2X^TX\theta-2X^TY=0$

$Y^TY$ 为常数，在求导过程中消去了。当 $X^TX$ 可逆时，可以解得：

$\theta=\left(X^TX\right)^{-1}X^TY$

时，函数取得极值，此时的 $\theta$ 为代价函数的极小值点。

GGN_2015

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
矩阵求导的基本方法

在学习最小二乘法线性回归时，对利用矩阵求逆计算最优解的做法感到疑惑，于是试图总结了一点点关于“标量对向量求导”的方法。由于没有参考太多资料，文章中可能充满了大大小小的错误，因此，如有谬误，欢迎各位读者以各种形式指出。
复制链接

扫一扫