矩阵求导

17 篇文章 2 订阅
3 篇文章 0 订阅

前言

本文为维基百科上矩阵微积分部分的翻译内容。本文为原文的翻译与个人总结,非一一对照翻译。由于水平不足理解不够处,敬请原谅与指出。原文地址https://en.wikipedia.org/wiki/Matrix_calculus。原文为矩阵微积分,本文题为矩阵求导,原因是原文主要介绍的是矩阵微分的内容。

1 简介

矩阵的微积分本质上是多元变量的微积分的问题,只是应用在矩阵空间上而已。

在讨论矩阵微分的时候,有两种布局方式,分子布局,与分母布局,第2,3部分不关注这个问题,第5部分以后介绍两种布局方式。

以下为六种以矩阵形式组织的常见的导数。

类型标量y向量y矩阵Y
标量xyxyxYx
向量xyxyx
矩阵XyX

其他三种方式并不常用,且符号也没有统一的认识。

2 符号

  1. 矩阵
    M(n,m)等。

  2. 向量
    M(n,1)等。

  3. 标量
    M(1,1)等。

  4. 其他
    XT

3 关于向量的导数

以分子布局来介绍,仅出于说明目的,不代表分子布局优于分母布局。

3.1 向量关于标量求导

向量y=⎡⎣⎢⎢⎢⎢⎢y1y2ym⎤⎦⎥⎥⎥⎥⎥\mathbf{y}=\left[

y1y2ym
求导可以表示为 yx=⎡⎣⎢⎢⎢⎢⎢⎢⎢y1xy2xymx⎤⎦⎥⎥⎥⎥⎥⎥⎥\frac{\partial \mathbf{y}}{\partial x}=\left[
y1xy2xymx

此时为 正切向量 yx

3.2 标量关于向量求导

标量y y1y2ym 关于向量x=⎡⎣⎢⎢⎢⎢x1x2xn⎤⎦⎥⎥⎥⎥ x1x2xn \mathbf{x}=\left[

x1x2xn
求导可以表示为 yx=[yx1yx2yxn] y1x1y2x1ymx1y1x2y2x2ymx2y1xny2xnymxn \frac{\partial {y}}{\partial \mathbf{x}}=\left[
yx1yx2yxn

此时为 梯度向量 yx y11xy21xym1xy12xy22xym2xy1nxy2nxymnx 为基。

3.3 向量关于向量求导

向量函数(即函数组成的向量)y=⎡⎣⎢⎢⎢⎢⎢y1y2ym⎤⎦⎥⎥⎥⎥⎥\mathbf{y}=\left[

关于向量 x=⎡⎣⎢⎢⎢⎢x1x2xn⎤⎦⎥⎥⎥⎥\mathbf{x}=\left[
的导数可以写作 yx=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢y1x1y2x1ymx1y1x2y2x2ymx2y1xny2xnymxn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\left[

此时,为 Jacobian矩阵

4 关于矩阵的导数

4.1 矩阵关于标量求导

正切矩阵表示为Yx=⎡⎣⎢⎢⎢⎢⎢⎢⎢y11xy21xym1xy12xy22xym2xy1nxy2nxymnx⎤⎦⎥⎥⎥⎥⎥⎥⎥\frac{\partial \mathbf{Y}}{\partial x}=\left[

4.2 标量关于矩阵求导

梯度矩阵表示为yX=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢yx11yx12yx1qyx21yx22yx2qyxp1yxp2yxpq⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥\frac{\partial y}{\partial \mathbf{X}}=\left[

yx11yx12yx1qyx21yx22yx2qyxp1yxp2yxpq

注意以上 X为其索引的转置。

5 布局约定(Layout conventions)

由向量关于向量的求导yx表示为行向量或者反过来表示的问题。根据这两种可能,有以下情况:

  1. 分子布局(Numerator layout),即准确表示是yxT为列向量),即Jacobian formulation。

  2. 分母布局(Denominator layout),即准确表示是yTx为行向量),即Hessian formulation(也有些作者称为梯度布局,尽管梯度不够准确)

所以:

  1. 对于分子布局,正切向量yx为行向量。
  2. 对于分母布局,正切向量yx为列向量。
  3. 对于分子布局,正切矩阵Yx
  4. 对于分母布局,正切矩阵Yx

然而,对于正切矩阵Yx,很不符合表达的习惯,所以一般如下表示:

  1. 统一使用分子布局,即Yx
  2. 使用混合布局,即Yx

注意:

  1. 并非所有书与论文从头为都是统一那个分子布局或者分母分的,往往是结合起来使用,根据上下文来确认。
  2. 分母布局与分子布局呈转置关系

6 恒等式

由以上可知,计算的结果可以通过转置在分子与分母布局中转换。

以下恒等式基于三条重要法则:求和法则(线性法则)、乘积法则、链式法则(注,类似标量的求导法则得知此三条法则),其中:

  1. 求和法则是通用的。
  2. 乘积法则对以下讨论大部分情况适用。由于矩阵乘法是不可交换的,所以需要给定矩阵相乘的顺序。标量关于矩阵求导不能直接使用。
  3. 链式法则只适用于部分情况。不适用与矩阵关于标量求导即标量关于矩阵求导。后者大部分情况涉及秩的计算。

6.1 向量关于向量求导

向量关于标量求导以及标量关于向量求导都可以看出是这种情况的特殊形式。

对于yx,有如下恒等:

为说明以上图中分子布局及分母布局中y的行列向量表示,把上图中部分项重新详细展开表示,可以有:

条件表示(未带布局信息)分子布局分母布局
a的函数axaxT=0aTx=0
xxxxT=IxTx=I
A的函数AxxAxxT=A(Ax)Tx=(xTAT)x=AT
A的函数xTAx(xTA)TxT=ATxxT=ATxTAx=A
aauxauxT=auxTauTx=auTx

6.2 标量关于向量求导

6.3 向量关于标量求导

6.4 标量关于矩阵求导

注意此处不适用链式及乘积法则。乘积法则可以借助微分及迹函数的性质得到,因为迹函数转置和循环排列:tr(A)=tr(AT)
根据这些性质,如计算tr(AXBXTC)X

根据6.7中内容可以得到

6.5 矩阵关于标量求导

6.6 标量关于标量求导

  1. 涉及向量

  2. 涉及矩阵

6.7 微分形式

我们常常使用微分形式计算,最后转换成导数形式。仅在分子布局有用,以下”a”为标量

  1. 标量关于矩阵

  2. 矩阵

  3. 微分到导数转换
    从微分到导数的转换,首先转换成规范形式,然后按照一下等式转换。

8 矩阵角度看映射,函数

函数为一对一的关系,可以理解为输入为n维向量,输出为标量。
映射为一对多的关系,可以理解为输入为n维向量。
当然,有时也称呼以上函数为标量函数,映射为向量函数(即由多个标量函数组成映射)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值