线性代数之矩阵求导（1）布局

最新推荐文章于 2022-08-01 17:19:12 发布

RuiH.AI

最新推荐文章于 2022-08-01 17:19:12 发布

阅读量427

点赞数 5

分类专栏：概率论与机器学习

本文链接：https://blog.csdn.net/qq_41035283/article/details/121204418

版权

线性代数矩阵

概率论与机器学习专栏收录该内容

50 篇文章 85 订阅

订阅专栏

线性代数之矩阵求导（1）布局

前言
分子和分母布局
标量，向量，矩阵
函数
函数求导
后记

前言

学机器人真是啥都要掌握呢，线性代数，概率论，泛函，实分析，优化理论，还有编程，仿真…感觉一年半载才能入门。

这个栏又要开一个新坑，线性代数，包括矩阵分析，矩阵计算，向量和矩阵的各种性质blabla。

基础的线性代数比如矩阵是啥向量是啥就略过了，直接进入与机器学习紧密相关的矩阵求导。

分子和分母布局

许多矩阵求导解析中都会谈到布局的概念，也就是分子布局分母布局，但是我记不住啊！不过也有好记的方法：

谁转置，就不是谁的布局；谁是列向量，就是谁的布局。

当然，以上这个方法得满足一些约定条件，可是记忆这些约定又很麻烦（我还是记不住），因此还是直观的展示布局方法，不整这些耗费脑细胞的布局命名。

标量，向量，矩阵

默认字母带数字下标 $x_0$ 是标量。默认向量 $x=(x_1,x_2,\dots,x_n)^T$ 是列向量， $x^T$ 是行向量, $\in R^n$ 。默认大写字母 $X$ 是矩阵。

为了简化公式，输入的矩阵不超过二阶，输入的向量不超过三维。

函数

将函数输出的类型作为函数类型，函数的输入可以是标量、向量和矩阵（有点C++里函数重载的意思）。

因此，可以将矩阵求导问题，看作是函数对矩阵的求导。

标量函数

输出是标量的函数就是标量函数。那么三种输入的标量函数举例：
$\begin{aligned} f(x_0)&=3x_0 \\ \quad \\ f(x)&= x_1^2+2x_2^2+2x_1x_2+x_3 \\ \quad \\ f(X)&=x_{11}^2+2x_{11}x_{12}+x_{21}x_{22}+2x_{22}^2 \end{aligned}$
可以看出，标量函数，实际上就是输入分量之间的各种组合多项式。

向量函数

假设向量函数的输出是三维的，则不同的输入对应的函数举例：
$\begin{aligned} f(x_0)&= \begin{bmatrix} 2x_0 \\ x_0^2 \\ x_0+2 \end{bmatrix} \\ \quad \\ f(x)&= \begin{bmatrix} x_1^2+2x_2^2 \\ x_2^2+2x_3^2 \\ x_3+2x_1x_2 \\ \end{bmatrix} \\ \quad \\ f(X)&= \begin{bmatrix} x_{11}^2+2x_{22}^2 \\ x_{12}^2+x_{21}x_{22} \\ 2x_{21} \end{bmatrix} \end{aligned}$

矩阵函数

假设输出的矩阵是3x2的，则不同输入类型的函数举例：
$\begin{aligned} f(x_0)&= \begin{bmatrix} 2x_0 & x_0 \\ x_0^2 & 1 \\ x_0+2 & x_0^2+2x_0\\ \end{bmatrix} \\ \quad \\ f(x)&= \begin{bmatrix} x_1^2+2x_2^2 & x_1x_2+3 \\ x_2^2+2x_3^2 & x_2^2+2x_1\\ x_3+2x_1x_2 & x_3\\ \end{bmatrix} \\ \quad \\ f(X)&= \begin{bmatrix} x_{11}^2+2x_{22}^2 & x_{11}+2\\ x_{12}^2+x_{21}x_{22} & 2x_{21}^2+2x_{21}\\ 2x_{21} & x_{22}^2 \\ \end{bmatrix} \end{aligned}$

函数求导

标量函数求导

以向量输入为例，如果输入是列向量，则求导公式为：
$\frac {\partial f}{\partial x}=\begin{bmatrix} \frac {\partial f}{\partial x_1 } \\ \frac {\partial f}{\partial x_2}\\ \frac {\partial f}{\partial x_3}\\ \end{bmatrix}$
如果输入是行向量，则有：
$\frac {\partial f}{\partial x^T}=\begin{bmatrix} \frac {\partial f}{\partial x_1}, \frac {\partial f}{\partial x_2}, \frac {\partial f}{\partial x_3} \end{bmatrix} = (\frac {\partial f}{\partial x})^T$
由以上公式可以看出，标量函数求导后的布局，和输入的布局是相同的，输入是列向量，求导布局也是列向量。

注意：在部分机器学习的求导中，标量对列向量求导是行向量，这就是所谓的分子布局。但是分母布局和分子布局只是计算的约定不同而已，因此在这里不会使用思维方式更复杂的分子布局（甚至我都不想提到这点）。

向量函数求导

以向量输入为例，假定输入是列向量，输出也是列向量，我们考虑对三个输出标量分别求导，然后把结果以列的形式拼在一起：
$\frac {\partial f}{\partial x}= \quad \begin{bmatrix} \frac {\partial f_1}{\partial x } \\ \frac {\partial f_2}{\partial x}\\ \frac {\partial f_3}{\partial x}\\ \end{bmatrix} = \quad \begin{bmatrix} \frac {\partial f_1}{\partial x_1 }\\ \frac {\partial f_1}{\partial x_2 }\\ \frac {\partial f_1}{\partial x_3 }\\ \frac {\partial f_2}{\partial x_1}\\ \dots \\ \frac {\partial f_3}{\partial x_3}\\ \end{bmatrix}$
m维列向量对n维列向量求导之后，变成了mn维列向量，新的向量空间很难与原向量空间进行变换，因此列向量对列向量求导，行向量对行向量求导都是不规范的。

因此，一般使用行向量对列向量求导（也就是所谓的分母布局）：
$\frac {\partial f^T}{\partial x}= \begin{bmatrix} \frac {\partial f_1}{\partial x }, \frac {\partial f_2}{\partial x}, \frac {\partial f_3}{\partial x} \end{bmatrix} \\ =\begin{bmatrix} \frac {\partial f_1}{\partial x_1}, \frac {\partial f_2}{\partial x_1}, \frac {\partial f_3}{\partial x_1}\\ \frac {\partial f_1}{\partial x_2}, \frac {\partial f_2}{\partial x_2}, \frac {\partial f_3}{\partial x_2}\\ \frac {\partial f_1}{\partial x_3}, \frac {\partial f_2}{\partial x_3}, \frac {\partial f_3}{\partial x_3}\\ \end{bmatrix}$
或者，也可以使用列向量对行向量求导（也就是所谓的分子布局），得到雅可比矩阵：
$\frac {\partial f}{\partial x^T}= \begin{bmatrix} \frac {\partial f_1}{\partial x }\\ \frac {\partial f_2}{\partial x}\\ \frac {\partial f_3}{\partial x}\\ \end{bmatrix} \\ =\begin{bmatrix} \frac {\partial f_1}{\partial x_1}, \frac {\partial f_1}{\partial x_2}, \frac {\partial f_1}{\partial x_3}\\ \frac {\partial f_2}{\partial x_1}, \frac {\partial f_2}{\partial x_2}, \frac {\partial f_2}{\partial x_3}\\ \frac {\partial f_3}{\partial x_1}, \frac {\partial f_3}{\partial x_2}, \frac {\partial f_3}{\partial x_3}\\ \end{bmatrix}$

于是，我们就成功的将标量对向量求导，延伸到了向量对向量求导。

矩阵函数求导

因为矩阵对矩阵、矩阵对向量的求导用的很少，因此这里仅仅举一个求导思路，矩阵函数对列向量求导：
$\frac {\partial f}{\partial x}= \begin{bmatrix} \frac {\partial f}{\partial x_1}\\ \frac {\partial f}{\partial x_2}\\ \frac {\partial f}{\partial x_3}\\ \end{bmatrix} \\ =\begin{bmatrix} \begin{bmatrix} \frac {\partial f_{11}}{\partial x_1}, \frac {\partial f_{12}}{\partial x_1}\\ \frac {\partial f_{21}}{\partial x_1}, \frac {\partial f_{22}}{\partial x_1}\end{bmatrix}\\ \quad \\ \begin{bmatrix} \frac {\partial f_{11}}{\partial x_2}, \frac {\partial f_{12}}{\partial x_2}\\ \frac {\partial f_{21}}{\partial x_2}, \frac {\partial f_{22}}{\partial x_2}\end{bmatrix}\\ \quad \\ \begin{bmatrix} \frac {\partial f_{11}}{\partial x_3}, \frac {\partial f_{12}}{\partial x_3}\\ \frac {\partial f_{21}}{\partial x_3}, \frac {\partial f_{22}}{\partial x_3}\end{bmatrix}\\ \end{bmatrix}$
结果是个张量。

后记

本次介绍了矩阵求导里最基础内容，布局。原因是部分教程里总是会说分子分母布局，搞得人稀里糊涂，因此不如直接从求导的形式与列向量联系起来，反而更容易理解。

矩阵求导中，最重要的是标量函数与向量、矩阵输入，以及向量函数与向量输入的求导，这部分将是下篇博客的主题。

最后，雅可比矩阵后续需要单独拿出来进行研究，它与移动机器人控制息息相关。

RuiH.AI

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
线性代数之矩阵求导（1）布局

线性代数之矩阵求导（1）布局前言分子和分母布局标量，向量，矩阵函数标量函数向量函数矩阵函数函数求导标量函数求导向量函数求导矩阵函数求导后记前言学机器人真是啥都要掌握呢，线性代数，概率论，泛函，实分析，优化理论，还有编程，仿真…感觉一年半载才能入门。这个栏又要开一个新坑，线性代数，包括矩阵分析，矩阵计算，向量和矩阵的各种性质blabla。基础的线性代数比如矩阵是啥向量是啥就略过了，直接进入与机器学习紧密相关的矩阵求导。分子和分母布局许多矩阵求导解析中都会谈到布局的概念，也就是分子布局分母布局，但
复制链接

扫一扫