机器学习向量矩阵求导(一)——定义与布局

最新推荐文章于 2023-08-10 17:02:59 发布

Polaris_T

最新推荐文章于 2023-08-10 17:02:59 发布

阅读量1.2k

点赞数 3

分类专栏：机器学习文章标签：矩阵线性代数机器学习

原文链接：https://www.cnblogs.com/pinard/p/10750718.html

版权

机器学习专栏收录该内容

24 篇文章 6 订阅

订阅专栏

一、引入

在高等数学里面，我们已经学过了标量对标量的求导，比如标量y对标量x的求导，可以表示为 $\frac{\partial{y}}{\partial{x}}$ 。有些时候，我们会有一组标量yi,i=1,2,…,m来对一个标量x的求导,那么我们会得到一组标量求导的结果：
在这里插入图片描述
如果我们把这组标量写成向量的形式，即得到维度为m的一个向量y对一个标量x的求导，那么结果也是一个m维的向量： $\frac{\partial{y}}{\partial{x}}$ 。
可见，所谓向量对标量的求导，其实就是向量里的每个分量分别对标量求导，最后把求导的结果排列在一起，按一个向量表示而已。类似的结论也存在于标量对向量的求导，向量对向量的求导，向量对矩阵的求导，矩阵对向量的求导，以及矩阵对矩阵的求导等。
总而言之，所谓的向量矩阵求导本质上就是多元函数求导，仅仅是把把函数的自变量，因变量以及标量求导的结果排列成了向量矩阵的形式，方便表达与计算，更加简洁而已。
为了便于描述，后面如果没有指明，则求导的自变量用 $x$ 表示标量， $\bold{x}$ 表示n维向量， $\bold{X}$ 表示 $m \times n$ 维度的矩阵，求导的因变量用 $y$ 表示标量， $\bold{y}$ 表示 $m$ 维向量， $\bold{Y}$ 表示 $p \times q$ 维度的矩阵。

二、矩阵向量求导定义

根据求导的自变量和因变量是标量，向量还是矩阵，我们有9种可能的矩阵求导定义，如下：

自变量\因变量	标量 $y$	向量 $\bold{y}$	矩阵 $\bold{Y}$
标量 $x$	$\frac{\partial{y}}{\partial{x}}$	$\frac{\partial{\bold{y}}}{\partial{x}}$	$\frac{\partial{\bold{Y}}}{\partial{x}}$
向量 $\bold{x}$	$\frac{\partial{y}}{\partial{\bold{x}}}$	$\frac{\partial{\bold{y}}}{\partial{\bold{x}}}$	$\frac{\partial{\bold{y}}}{\partial{\bold{x}}}$
矩阵 $\bold{X}$	$\frac{\partial{y}}{\partial{\bold{X}}}$	$\frac{\partial{\bold{y}}}{\partial{\bold{X}}}$	$\frac{\partial{\bold{Y}}}{\partial{\bold{X}}}$

这里有一个问题没有讲到，就是求导结果排列成的向量到底应该是列向量还是行向量？
这个问题的答案是：行向量或者列向量皆可。毕竟我们求导的本质只是把标量求导的结果排列起来，至于是按行排列还是按列排列都是可以的。但是这样也有问题，在我们机器学习算法法优化过程中，如果行向量或者列向量随便写，那么结果就不唯一了。
为了解决这个问题，我们引入求导布局的概念。

三、矩阵向量求导布局

为了解决矩阵向量求导的结果不唯一，我们引入求导布局。最基本的求导布局有两个：分子布局(numerator layout)和分母布局(denominator layout)。
对于分子布局来说，我们求导结果的维度以分子为主，比如对于我们上面对标量求导的例子，结果的维度和分子的维度是一致的。也就是说，如果向量y是一个m维的列向量，那么求导结果∂y∂x也是一个m维列向量。如果如果向量y是一个m维的行向量，那么求导结果 $\frac{\partial{y}}{\partial{x}}$ 也是一个m维行向量。
对于分母布局来说，我们求导结果的维度以分母为主，比如对于我们上面对标量求导的例如，如果向量y是一个m维的列向量，那么求导结果 $\frac{\partial{y}}{\partial{x}}$ 是一个m维行向量。如果如果向量y是一个m维的行向量，那么求导结果 $\frac{\partial{y}}{\partial{x}}$ 是一个m维的列向量向量。
可见，对于分子布局和分母布局的结果来说，两者相差一个转置。
再举一个例子，标量y对矩阵X求导，那么如果按分母布局，则求导结果的维度和矩阵X的维度m×n是一致的。如果是分子布局，则求导结果的维度为n×m。
这样，对于标量对向量或者矩阵求导，向量或者矩阵对标量求导这4种情况，对应的分子布局和分母布局的排列方式已经确定了。
稍微麻烦点的是向量对向量的求导，本文只讨论列向量对列向量的求导，其他的行向量求导只是差一个转置而已。比如m维列向量y对n维列向量x求导。它的求导结果在分子布局和分母布局各是什么呢？对于这2个向量求导，那么一共有mn个标量对标量的求导。求导的结果一般是排列为一个矩阵。如果是分子布局，则矩阵的第一个维度以分子为准，即结果是一个m×n的矩阵，如下：
在这里插入图片描述
上面这个按分子布局的向量对向量求导的结果矩阵，我们一般叫做雅克比 (Jacobian)矩阵。有的资料上会使用 $\frac{\partial{y}}{\partial{x^{T}}}$ 来定义雅克比矩阵，意义是一样的。
如果是按分母布局，则求导的结果矩阵的第一维度会以分母为准，即结果是一个n×m的矩阵，如下：
在这里插入图片描述
上面这个按分母布局的向量对向量求导的结果矩阵，我们一般叫做梯度矩阵。
有了布局的概念，我们对于上面5种求导类型，可以各选择一种布局来求导。但是对于某一种求导类型，不能同时使用分子布局和分母布局求导。
但是在机器学习算法原理的资料推导里，我们并没有看到说正在使用什么布局，也就是说布局被隐含了，这就需要自己去推演，比较麻烦。但是一般来说我们会使用一种叫混合布局的思路，即如果是向量或者矩阵对标量求导，则使用分子布局为准，如果是标量对向量或者矩阵求导，则以分母布局为准。对于向量对对向量求导，有些分歧，我的所有文章中会以分子布局的雅克比矩阵为主。

Polaris_T

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习向量矩阵求导(一)——定义与布局

一、引入在高等数学里面，我们已经学过了标量对标量的求导，比如标量y对标量x的求导，可以表示为∂y∂x\frac{\partial{y}}{\partial{x}}∂x∂y。有些时候，我们会有一组标量yi,i=1,2,…,m来对一个标量x的求导,那么我们会得到一组标量求导的结果：如果我们把这组标量写成向量的形式，即得到维度为m的一个向量y对一个标量x的求导，那么结果也是一个m维的向量：∂y∂x\frac{\partial{y}}{\partial{x}}∂x∂y。可见，所谓向量对标量的
复制链接

扫一扫