机器学习之矩阵求导

最新推荐文章于 2024-03-21 13:18:11 发布

u011749267

最新推荐文章于 2024-03-21 13:18:11 发布

阅读量1.6k

点赞数 3

分类专栏：机器学习数学基础文章标签：机器学习矩阵求导

本文链接：https://blog.csdn.net/u011749267/article/details/79220025

版权

机器学习数学基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

0 前提及说明

在机器学习算法学习过程中，理论推导每当涉及到矩阵求导时，以往都是不求甚解，为更加深入理解算法，特此在这里整理近日的学习心得。下面进入正题。

前提：若 $\bf x$ 为向量，则默认 $\bf x$ 为列向量， $\bf x^T$ 为行向量，即我们默认使用列向量。

1 矩阵求导类型

根据 $Y$ 与 $X$ 的不同类型（标量（Scalar）、向量（Vector）、矩阵（Matrix）给出下表：

类型	标量 $y$	向量 $\bf y$	矩阵 $\bf Y$
标量 $x$	$\frac{\partial y}{\partial x}$	$\frac{\partial \bf y}{\partial x}$	$\frac{\partial \bf Y}{\partial x}$
向量 $\bf x$	$\frac{\partial y}{\partial \bf x}$	$\frac{\partial \bf y}{\partial \bf x}$
矩阵 $\bf X$	$\frac{\partial y}{\partial \bf X}$

2 布局的约定（Layout Conventions）

矩阵求导本质上还是多元变量的微积分问题，只不过应用在了矩阵空间上，有两种约定（即布局）：分子布局，分母布局。两种约定的求导结果有互为转置的关系，即约定不同，求导规则和结果都不同。

分子布局(Numerator Layout)：即根据列向量 $\bf y$ 和行向量 $\bf x^T$ (即与x相反)布局，这有时被称为雅可比公式。
分母布局(Denominator Layout)：即根据行向量 $\bf y^T$ 和列向量 $\bf x$ (即与y相反)布局，这有时被称为Hessian公式。一些作者将这种布局称为梯度，区别于雅可比矩阵(分子布局)，即它的转置。下面给出维基百科关于两种布局的举例。

2.1 分子布局

标量/行向量： $\frac{\partial y}{\partial \bf x^T}=\begin{bmatrix} \frac{\partial y}{\partial x_1} & \frac{\partial y}{\partial x_2}& \cdots \frac{\partial y}{\partial x_n}\\ \end{bmatrix} \Longrightarrow$ 行向量
列向量/标量： $\frac{\partial \bf y}{\partial x}=\begin{bmatrix} \frac{\partial y_1}{\partial x}\\ \frac{\partial y_2}{\partial x} \\ \vdots\\ \frac{\partial y_n}{\partial x}\\ \end{bmatrix} \Longrightarrow$ 列向量
列向量/行向量： $\frac{\partial \bf y}{\partial \bf x^T}=\begin{bmatrix} \frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2}& \cdots &\frac{\partial y_1}{\partial x_n}\\ \frac{\partial y_2}{\partial x_1}&\frac{\partial y_2}{\partial x_2}& \cdots &\frac{\partial y_2}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_n}{\partial x_1}&\frac{\partial y_n}{\partial x_2}& \cdots &\frac{\partial y_n}{\partial x_n}\\ \end{bmatrix} \Longrightarrow m \times n$ 的矩阵（ $\bf y$ 为 $m$ 维， $\bf x$ 为 $n$ 维）,矩阵的行按行向量展开，矩阵的列按列向量展开
标量/矩阵（ $p \times q$ 维）： $\frac{\partial y}{\partial \bf X}=\begin{bmatrix} \frac{\partial y}{\partial x_{11}}&\frac{\partial y}{\partial x_{21}}& \cdots &\frac{\partial y}{\partial x_{p1}}\\ \frac{\partial y}{\partial x_{12}}&\frac{\partial y}{\partial x_{22}}& \cdots &\frac{\partial y}{\partial x_{p2}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{1q}}&\frac{\partial y}{\partial x_{2q}}& \cdots &\frac{\partial y}{\partial x_{pq}}\\ \end{bmatrix} \Longrightarrow q \times p$ 维矩阵，相当先转置，再对应元素求导。
矩阵（ $m \times n$ ）/标量（仅分子布局）： $\frac{\partial \bf Y}{\partial x}=\begin{bmatrix} \frac{\partial y_{11}}{\partial x}&\frac{\partial y_{12}}{\partial x}& \cdots &\frac{\partial y_{1n}}{\partial x}\\ \frac{\partial y_{21}}{\partial x}&\frac{\partial y_{22}}{\partial x}& \cdots &\frac{\partial y_{2n}}{\partial x}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_{m1}}{\partial x}&\frac{\partial y_{m2}}{\partial x}& \cdots &\frac{\partial y_{mn}}{\partial x}\\ \end{bmatrix} \Longrightarrow m \times n$ 维矩阵

2.2 分母布局

标量/列向量： $\frac{\partial y}{\partial \bf x}=\begin{bmatrix} \frac{\partial y}{\partial x_1}\\ \frac{\partial y}{\partial x_2} \\ \vdots\\ \frac{\partial y}{\partial x_n}\\ \end{bmatrix} \Longrightarrow$ 列向量
行向量/标量： $\frac{\partial \bf y^T}{\partial x}=\begin{bmatrix} \frac{\partial y_1}{\partial x} & \frac{\partial y_2}{\partial x}& \cdots \frac{\partial y_m}{\partial x}\\ \end{bmatrix} \Longrightarrow$ 行向量
行向量/列向量： $\frac{\partial \bf y^T}{\partial \bf x}=\begin{bmatrix} \frac{\partial y_1}{\partial x_1}&\frac{\partial y_2}{\partial x_1}& \cdots &\frac{\partial y_m}{\partial x_1}\\ \frac{\partial y_1}{\partial x_2}&\frac{\partial y_2}{\partial x_2}& \cdots &\frac{\partial y_m}{\partial x_1}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_1}{\partial x_n}&\frac{\partial y_2}{\partial x_n}& \cdots &\frac{\partial y_m}{\partial x_n}\\ \end{bmatrix} \Longrightarrow n \times m$ 的矩阵（ $\bf y$ 为 $m$ 维， $\bf x$ 为 $n$ 维）,矩阵的行按行向量展开，矩阵的列按列向量展开
标量/矩阵（ $p \times q$ 维）： $\frac{\partial y}{\partial \bf X}=\begin{bmatrix} \frac{\partial y}{\partial x_{11}}&\frac{\partial y}{\partial x_{12}}& \cdots &\frac{\partial y}{\partial x_{1q}}\\ \frac{\partial y}{\partial x_{21}}&\frac{\partial y}{\partial x_{22}}& \cdots &\frac{\partial y}{\partial x_{2q}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{p1}}&\frac{\partial y}{\partial x_{p2}}& \cdots &\frac{\partial y}{\partial x_{pq}}\\ \end{bmatrix} \Longrightarrow p \times q$ 维矩阵，对应元素直接求导即可。

2.3 总结归纳

类型	标量 $y$	向量 $\bf y$ （ $m$ 维）	矩阵 $\bf Y$ （ $m \times n$ 维）
标量 $x$	$\frac{\partial y}{\partial x}$ 标量	$\frac{\partial \bf y}{\partial x}$ 分子布局: $m$ 维列向量分母布局: $m$ 行向量	$\frac{\partial \bf Y}{\partial x}$ （ $m \times n$ 维）仅分子类型
向量 $\bf x$ （ $n$ 维）	$\frac{\partial y}{\partial \bf x}$ 分子布局: $n$ 维行向量分母布局: $n$ 维列向量	$\frac{\partial \bf y}{\partial \bf x}$ 分子布局: $m \times n$ 维矩阵分母布局: $n \times m$ 维矩阵
矩阵 $\bf X$ （ $p \times q$ 维）	$\frac{\partial y}{\partial \bf X}$ 分子布局: $q \times p$ 维矩阵分母布局: $p \times q$ 维矩阵

3 常用公式

以下公式来源于维基百科，在此仅给出本人在学习过程中涉及到到的求导公式，随着不断学习会加以更新，链式法则与普通实数运算基本一致。

3.1 向量对向量求导

条件	表达式	分子布局 $\bf y$ 和 $\bf x^T$	分母布局 $\bf x$ 和 $\bf y^T$
$\bf a$ 不是 $\bf x$ 的函数	$\frac{\partial \bf a}{\partial \bf x}=$	$\bf 0$
$\bf a$ 不是 $\bf x$ 的函数	$\frac{\partial \bf x}{\partial \bf x}=$	$\bf E$
$\bf A$ 不是 $\bf x$ 的函数	$\frac{\partial \bf Ax}{\partial \bf x}=$	$\bf A$	$\bf A^T$
$\bf A$ 不是 $\bf x$ 的函数	$\frac{\partial \bf x^TA}{\partial \bf x}=$	$\bf A^T$	$\bf A$

3.2 标量对向量求导

条件	表达式	分子布局 $\bf y$ 和 $\bf x^T$	分母布局 $\bf x$ 和 $\bf y^T$
$a$ 不是 $\bf x$ 的函数	$\frac{\partial a}{\partial \bf x}=$	$\bf 0^T$	$\bf 0$
$\bf A$ 不是 $\bf x$ 的函数	${\bf \frac{\partial x^TAx}{\partial x}}=$	$\bf x^T(A+A^T)$	$\bf (A+A^T)x$
$\bf A$ 不是 $\bf x$ 的函数， $\bf A$ 为实对称矩阵	${\bf\frac{\partial x^TAx}{\partial \bf x}}=$	$\bf 2x^TA$	$\bf 2Ax$

4 矩阵求导实践之线性回归

4.1 线性回归回顾

对于线性回归我们一般假设 $p(y|x;\theta)$ ~ $N(\mu,\sigma^2)$ ，由广义线性模型得到假设函数 $h_\theta(x)=\theta^Tx\Leftrightarrow h_\theta(\bf X)=\bf X\theta$ ，再由最大似然估计方法得到等价的极小值损失函数

J (θ) = 1 2 \sum i = 1 m (h θ (x (i) - y (i))) 2

$J(\theta)=\frac{1}{2}\sum_{i=1}^m (h_\theta(x^{(i)}-y^{(i)})) ^2\quad$ ，且

J(θ) J ( θ ) $J(\theta)$ 为一个凸函数，也有系数写成

12m 1 2 m $\frac {1}{2m}$ 的。首先推导最小二乘法（也就是正规方程）:

θ=(XTX)−1XTy θ = ( X T X ) − 1 X T y $\theta={\bf(X^TX)^{-1}X^T\bf y}$ 。
首先将损失函数写为矩阵形式：

J(θ)=12(Xθ−y)T(Xθ−y) J ( θ ) = 1 2 ( X θ − y ) T ( X θ − y ) $J(\theta)=\frac{1}{2}{\bf(X\theta-{\bf y})^T(X\theta-{\bf y})}$ ，下面对

J(θ) J ( θ ) $J(\theta)$ 进行矩阵求导。

4.2 最小二乘法推导

\nabla θ (J (θ)) = \nabla θ [1 2 (X θ - y) T (X θ - y)] = \nabla θ [1 2 (θ T X T - y T) (X θ - y)] = 1 2 \nabla θ (θ T X T X θ - θ T X T y - y T X θ + y T y) = 1 2 (2 X T X θ - X T y - X T y + 0) = X T X θ - X T y = X T (X θ - y) (1) (2) (3) (4) (5) (6)

$\begin{align} \nabla_\theta(J(\theta))&=\nabla_\theta[\frac{1}{2}{\bf(X\theta- y)^T(X\theta-y)]} \tag{1}\\ &=\nabla_\theta[\frac{1}{2}{\bf(\theta^TX^T- y^T)(X\theta-y)]} \tag{2}\\ &=\frac{1}{2}\nabla_\theta {\bf(\theta^TX^TX\theta-\theta^TX^T{\bf y}-y^TX\theta+y^T y)} \tag{3}\\ &=\frac{1}{2}(2{\bf X^TX\theta-X^T y-X^Ty+0) }\tag{4}\\ &={\bf X^TX\theta-X^Ty}\tag{5}\\ &={\bf X^T(X\theta-y)}\tag{6}\end{align}$

注意： $\bf X^TX$ 为实对称矩阵； $\theta为列向量$ ，因此求导依据分子布局

由此可求得驻点 $\theta={\bf (X^TX)^{-1}X^T\bf y}$ ，即最小二乘法表达式。

4.3 线性回归梯度下降推导

由4.2可得损失函数的导数 $\nabla_\theta(J(\theta))=\bf X^T(X\theta-y)$ ，因此可得每轮迭代的梯度表达式 ${\bf \theta=\theta-\alpha X^T(X\theta-y)}\Leftrightarrow \theta_j=\theta_j-\alpha \frac{\partial}{\partial \theta_j}J(\theta)=[y^{(i)}-h_\theta(x^{(i)})]{x_j}^{(i)}$

参考文献

Andrew ng的机器学习讲义
维基百科

感谢阅读，敬请斧正！

u011749267

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
机器学习之矩阵求导

0 前提及说明在机器学习算法学习过程中，理论推导每当涉及到矩阵求导时，以往都是不求甚解，为更加深入理解算法，特此在这里整理近日的学习心得。下面进入正题。前提：若x" role="presentation" style="position: relative;">xx\bf x为向量，则默认x" role="presentation" style="position: relative
复制链接

扫一扫

专栏目录