(Math)矩阵求导

本文地址:http://blog.csdn.net/mounty_fsc/article/details/51583809

前言

本文为维基百科上矩阵微积分部分的翻译内容。本文为原文的翻译与个人总结,非一一对照翻译。由于水平不足理解不够处,敬请原谅与指出。原文地址https://en.wikipedia.org/wiki/Matrix_calculus。原文为矩阵微积分,本文题为矩阵求导,原因是原文主要介绍的是矩阵微分的内容。

1 简介

矩阵的微积分本质上是多元变量的微积分的问题,只是应用在矩阵空间上而已。

在讨论矩阵微分的时候,有两种布局方式,分子布局,与分母布局,第2,3部分不关注这个问题,第5部分以后介绍两种布局方式。

以下为六种以矩阵形式组织的常见的导数。

类型 标量y 向量y 矩阵Y
标量x yx yx Yx
向量x yx yx
矩阵X yX

其他三种方式并不常用,且符号也没有统一的认识。

2 符号

  1. 矩阵
    M(n,m)表示nm列的实矩阵,一般使用加粗大写字母表示,如A,X,Y等。

  2. 向量
    M(n,1)为列向量,一般用小写加粗表示,如a,x,y等。

  3. 标量
    M(1,1)为标量,一般用小写斜体表示,如a,x,y等。

  4. 其他
    XT为转置,tr(X)为迹,det(X)为行列式。字母表前半(a,b,c,)为常量,后半(t,x,y,)

3 关于向量的导数

以分子布局来介绍,仅出于说明目的,不代表分子布局优于分母布局。

3.1 向量关于标量求导

向量y=y1y2ym关于标量x求导可以表示为yx=y1xy2xymx
此时为正切向量yxy的正切向量。注意,有映射y:RmRm

3.2 标量关于向量求导

标量y关于向量x=x1x2xn求导可以表示为yx=[yx1yx2yxn]
此时为梯度向量yx为标量y在空间Rm的梯度,该空间以x为基。

3.3 向量关于向量求导

向量函数(即函数组成的向量)y=y1y2ym关于向量x=x1x2xn的导数可以写作yx=y1x1y2x1ymx1y1x2y2x2ymx2y1xny2xnymxn
此时,为Jacobian矩阵

4 关于矩阵的导数

4.1 矩阵关于标量求导

正切矩阵表示为Yx=y11xy21xym1xy12xy22xym2xy1nxy2nxymnx

4.2 标量关于矩阵求导

梯度矩阵表示为yX=yx11yx12yx1qyx21yx22yx2qyxp1yxp2yxpq
注意以上X为其索引的转置。

5 布局约定(Layout conventions)

由向量关于向量的求导yx可以得出两种矛盾的表示:结果表示为n×m矩阵或m×n矩阵。也就是把y表示为列向量x表示为行向量或者反过来表示的问题。根据这两种可能,有以下情况:

  1. 分子布局(Numerator layout),即准确表示是yxTy为列向量),即Jacobian formulation。

  2. 分母布局(Denominator layout),即准确表示是yTxy为行向量),即Hessian formulation(也有些作者称为梯度布局,尽管梯度不够准确)

所以:

  1. 对于分子布局,正切向量yxy为列向量,梯度向量yx为行向量。
  2. 对于分母布局,正切向量yxy为行向量,梯度向量yx为列向量。
  3. 对于分子布局,正切矩阵YxY,梯度矩阵yXXT
  4. 对于分母布局,正切矩阵YxYT,梯度矩阵yXX

然而,对于正切矩阵Yx采用分母布局,即YT,很不符合表达的习惯,所以一般如下表示:

  1. 统一使用分子布局,即YxY,梯度矩阵yXXT
  2. 使用混合布局,即YxY,梯度矩阵yXX

注意:

  1. 并非所有书与论文从头为都是统一那个分子布局或者分母分的,往往是结合起来使用,根据上下文来确认。
  2. 分母布局与分子布局呈转置关系

6 恒等式

由以上可知,计算的结果可以通过转置在分子与分母布局中转换。

以下恒等式基于三条重要法则:求和法则(线性法则)、乘积法则、链式法则(注,类似标量的求导法则得知此三条法则),其中:

  1. 求和法则是通用的。
  2. 乘积法则对以下讨论大部分情况适用。由于矩阵乘法是不可交换的,所以需要给定矩阵相乘的顺序。标量关于矩阵求导不能直接使用。
  3. 链式法则只适用于部分情况。不适用与矩阵关于标量求导即标量关于矩阵求导。后者大部分情况涉及秩的计算。

6.1 向量关于向量求导

向量关于标量求导以及标量关于向量求导都可以看出是这种情况的特殊形式。

对于yx,有如下恒等:

为说明以上图中分子布局及分母布局中yx的行列向量表示,把上图中部分项重新详细展开表示,可以有:

条件 表示(未带布局信息) 分子布局 分母布局
ax的函数 ax axT=0 aTx=0
xx xxT=I xTx=I
Ax的函数 Axx AxxT=A (Ax)Tx=(xTAT)x=AT
Ax的函数 xTAx (xTA)TxT=ATxxT=AT xTAx=A
ax的函数,u=u(x) aux auxT=auxT auTx=auTx

6.2 标量关于向量求导

6.3 向量关于标量求导

6.4 标量关于矩阵求导

注意此处不适用链式及乘积法则。乘积法则可以借助微分及迹函数的性质得到,因为迹函数转置和循环排列:tr(A)=tr(AT)tr(ABCD)=tr(BCDA)=tr(CDAB)=tr(DABC)
根据这些性质,如计算tr(AXBXTC)X

根据6.7中内容可以得到

6.5 矩阵关于标量求导

6.6 标量关于标量求导

  1. 涉及向量

  2. 涉及矩阵

6.7 微分形式

我们常常使用微分形式计算,最后转换成导数形式。仅在分子布局有用,以下”a”为标量

  1. 标量关于矩阵

  2. 矩阵

  3. 微分到导数转换
    从微分到导数的转换,首先转换成规范形式,然后按照一下等式转换。

8 矩阵角度看映射,函数

函数为一对一的关系,可以理解为输入为n维,nN,输出为1维。进一步可以理解为,输入为n维向量,输出为标量。
映射为一对多的关系,可以理解为输入为n维,nN,输出m维,mN。进一步可以理解为,输入为n维向量,输出为m维向量。
当然,有时也称呼以上函数为标量函数,映射为向量函数(即由多个标量函数组成映射)

没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试

关闭