机器学习之矩阵求导

最新推荐文章于 2022-02-19 16:52:36 发布

我会像蜗牛一样努力

最新推荐文章于 2022-02-19 16:52:36 发布

阅读量838

点赞数

分类专栏：机器学习深度学习算法的数学基础文章标签：机器学习深度学习神经网络

本文链接：https://blog.csdn.net/qq_40128284/article/details/107789698

版权

机器学习同时被 3 个专栏收录

27 篇文章 9 订阅

订阅专栏

深度学习

23 篇文章 4 订阅

订阅专栏

算法的数学基础

13 篇文章 1 订阅

订阅专栏

简介：

无论是最小二乘法，还是神经网络反向传播算法，到处可以见到矩阵求导的身影，所以矩阵求导在机器学习中还是比较重要的。

下面将从输入和输出 f(x) 的形式来分开介绍矩阵求导：

首先，我们要明确矩阵求导的本质，即 $\frac{dA}{dB}$ ，矩阵A对矩阵B求导的本质是矩阵A中的每一个元素对矩阵B中的每一个元素进行求导。求导结果中含有元素的大小，为矩阵A的元素个数乘以矩阵B中元素的个数。

求导秘术：拉伸：

标量不变，向量拉伸。
前面横向拉伸，后面纵向拉伸。

输入为标量，输出为标量

这种情况，没有啥好介绍的，使用常规求导公式。

输入为标量，输出为向量

例子：输入为，输出 $\begin{bmatrix} f_{1}(x)=x\\f_{2}(x)=x^{2} \end{bmatrix}$

这里输出是标量无法纵向拉伸，输出是向量，可以横向拉伸，结果为： $\frac{df(x)}{x} = \begin{bmatrix} \frac{\partial f_{1}(x)}{x} & \frac{\partial f_{2}(x)}{x} \end{bmatrix} = \begin{bmatrix} 1 & 2x \end{bmatrix}$

输入X为向量，输出为标量

例子：输入为 $\begin{bmatrix} x_{1}\\x _{2} \end{bmatrix}$ ，输出 $x_{1}+x _{2}$

这里输入是向量可以纵向拉伸，输出是标量无法横向拉伸，结果为： $\frac{df(x)}{X} = \begin{bmatrix} \frac{\partial(x_{1}+x_{2})}{dx_{1}}\\ \frac{\partial (x_{1}+x_{2})}{dx_{2}} \end{bmatrix} = \begin{bmatrix} x_{2}\\ x_{1} \end{bmatrix}$

输入为向量，输出为向量

例子：输入为 $\begin{bmatrix} x_{1}\\x _{2} \end{bmatrix}$ ，输出为 $\begin{bmatrix} f_{1}(x_{1})\\ f_{2}(x _{2}) \end{bmatrix}$

这里输入和输出都是向量，既要纵向拉伸也要横向拉伸，结果为： $\begin{bmatrix} \frac{\partial (f_{1})}{x_{1}} & \frac{\partial (f_{2})}{x_{1}}\\ \frac{\partial (f_{1})}{x_{2}} & \frac{\partial (f_{2})}{x_{2}} \end{bmatrix}$

输入为标量，输出为矩阵

例子：输入为，输出为 $\begin{bmatrix} f_{11}(x)=x &f_{12}(x)=x^{2} \\ f_{21}(x)=x^{3} & f_{22}(x)=x^{4} \end{bmatrix}$

结果为： $\begin{bmatrix} \frac{\partial (f_{11}(x))}{x} &\frac{\partial (f_{12}(x))}{x} \\ \frac{\partial (f_{21}(x))}{x} &\frac{\partial (f_{22}(x))}{x} \end{bmatrix}$

输入为向量，输出为矩阵

例子：输入为 $\begin{bmatrix} x_{1}\\x _{2} \end{bmatrix}$ ，输出为 $\begin{bmatrix} f_{11}(x)=x_{1}+x_{2} &f_{12}(x)=x_{1}^{2}+x_{2}^{2} \\ f_{21}(x)=x_{1}^{3}+x_{2}^{3} & f_{22}(x)=x_{1}^{4}+x_{2}^{4} \end{bmatrix}$

结果为： $\begin{bmatrix} \frac{\partial (f_{11}(x))}{\partial x_{1}}& \frac{\partial (f_{12}(x))}{\partial x_{1}}\\ \frac{\partial (f_{21}(x))}{\partial x_{2}} & \frac{\partial (f_{22}(x))}{\partial x_{2}} \end{bmatrix}$

两种布局：

分母布局------YX拉伸术（前面使用的正是这种布局）。
分子布局------XY拉伸术（不同之处为，X为横向拉伸，Y为纵向拉伸，其他都一样）。

常见矩阵求导公式推导：

公式一： $f(X) = A^{T}X$ ，其中 $A = \begin{bmatrix} a_{1}\\ a_{2} \\ \vdots \\ a_{n} \end{bmatrix}$ ， $X = \begin{bmatrix} x_{1}\\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix}$ ，求 $\frac{d(f(X))}{dX}$

已知 $f(X) = A^{T}X = \sum_{i=1}^{n}a_{i}x_{i}$ ，因此， $\frac{d(f(X))}{dX} = \begin{bmatrix} \frac{\partial f(X)}{\partial x_{1}}\\ \frac{\partial f(X)}{\partial x_{2}}\\ \vdots \\ \frac{\partial f(X)}{\partial x_{n}} \end{bmatrix} = \begin{bmatrix} a_{1}\\ a_{2} \\ \vdots \\ a_{n} \end{bmatrix}=A$ ，同时，我们知道 $A^{T}X = X^{T}A$ ，因此 $\frac{d(A^{T}X)}{dX} = \frac{d(X^{T}A)}{dX} = A$ .

公式二： $f(X) = X^{T}AX$ ，其中 $A = \begin{bmatrix} a_{11} &a_{12} & \cdots & a_{1n}\\ a_{21}& a_{22}&\cdots & a_{2n}\\ \vdots & \vdots & \vdots & \vdots \\ a_{n1}& a_{n2}& \cdots & a_{nn} \end{bmatrix}$ ， $X = \begin{bmatrix} x_{1}\\ x_{2} \\ \vdots \\ x_{3} \end{bmatrix}$ ，通过维度推导，我们知道 f(X) 为一个标量，即

$f(X)= \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_{i}x_{j}$ ，故 $\frac{d(f(X))}{X} = \begin{bmatrix} \frac{\partial f(X)}{\partial x_{1}}\\ \frac{\partial f(X)}{\partial x_{2}}\\ \vdots \\ \frac{\partial f(X)}{\partial x_{n}} \end{bmatrix} =\begin{bmatrix} \sum_{j=1}^{n}a_{1j}x_{j} + \sum_{i=1}^{n}a_{i1}x_{j}\\ \sum_{j=1}^{n}a_{2j}x_{j} + \sum_{i=1}^{n}a_{i2}x_{j}\\ \vdots \\ \sum_{j=1}^{n}a_{nj}x_{j} + \sum_{i=1}^{n}a_{in}x_{j} \end{bmatrix}$

$=\begin{bmatrix} \sum_{j=1}^{n}a_{1j}x_{j}\\ \sum_{j=1}^{n}a_{2j}x_{j}\\ \vdots \\ \sum_{j=1}^{n}a_{nj}x_{j} \end{bmatrix} + \begin{bmatrix} \sum_{i=1}^{n}a_{i1}x_{j}\\ \sum_{i=1}^{n}a_{i2}x_{j}\\ \vdots \\ \sum_{i=1}^{n}a_{in}x_{j} \end{bmatrix} = \begin{bmatrix} a_{11} &a_{12} & \cdots & a_{1n}\\ a_{21}& a_{22}&\cdots & a_{2n}\\ \vdots & \vdots & \vdots & \vdots \\ a_{n1}& a_{n2}& \cdots & a_{nn} \end{bmatrix}\begin{bmatrix} x_{1}\\ x_{2} \\ \vdots \\ x_{3} \end{bmatrix} = \begin{bmatrix} a_{11} &a_{21} & \cdots & a_{n1}\\ a_{12}& a_{22}&\cdots & a_{n2}\\ \vdots & \vdots & \vdots & \vdots \\ a_{1n}& a_{2n}& \cdots & a_{nn} \end{bmatrix} \begin{bmatrix} x_{1}\\ x_{2} \\ \vdots \\ x_{3} \end{bmatrix}$

$= AX+A^{T}X = (A+A^{T})X$

即： $\frac{d( X^{T}AX)}{dX} = (A+A^{T})X$

Hessian矩阵

好了，有了前面的知识，我们来看看Hessian矩阵是个什么东东，简单来说，Hessian矩阵就是一个来储存函数的二阶导数信息。若已知n元函数 $f(x_{1},x_{2}\cdots x_{n})$ 的二阶导数存在，那么对应的Hessian矩阵为如下所示：

$H= \begin{bmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}} & \frac{\partial ^{2}f}{\partial x_{1}x_{2}} & \cdots &\frac{\partial ^{2}f}{\partial x_{1}x_{n}} \\ \frac{\partial ^{2}f}{\partial x_{2}x_{1}} & \frac{\partial ^{2}f}{\partial x_{2}x_{2}} &\cdots & \frac{\partial ^{2}f}{\partial x_{2}x_{n}} \\ \vdots &\vdots & \vdots &\vdots \vdots \\ \frac{\partial ^{2}f}{\partial x_{n}x_{1}} & \frac{\partial ^{2}f}{\partial x_{n}x_{2}} &\cdots & \frac{\partial ^{2}f}{\partial x_{n}^{2}} \end{bmatrix}$

下面举个例子： $f(x)= 5x_{1}^{2} +6x_{1}x_{2}+8x_{2}^{2}$ 的Hessian矩阵为 $A+A^{T} = \begin{bmatrix} 5 & 3\\ 3 &8 \end{bmatrix} + \begin{bmatrix} 5 & 3\\ 3& 8 \end{bmatrix} = \begin{bmatrix} 10 & 6\\ 6& 16 \end{bmatrix}$ .

如果直接套用Hessian矩阵的公式为： $\begin{bmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}} & \frac{\partial ^{2}f}{\partial x_{1}x_{2}}\\ \frac{\partial ^{2}f}{\partial x_{2}x_{1}}& \frac{\partial ^{2}f}{\partial x_{2}^{2}} \end{bmatrix} = \begin{bmatrix} 10 &6 \\ 6&16 \end{bmatrix}$ ，那么为啥 $A+A^{T}$ 为啥直接是该多项式的Hessian矩阵呢？我们知道Hessian矩阵就是一个来储存函数的二阶导数信息，即Hessian矩阵为 $\frac{\partial f}{\partial X} = (A+A^{T})X$ ,，于是 $\frac{\partial f^{2}}{\partial X} = (A+A^{T})$ 。