矩阵向量求导

版权声明:原创文章,欢迎转载,注明出处。 https://blog.csdn.net/uncle_gy/article/details/78879131
                                        <div class="markdown_views">
            <h1 id="原文地址"><a name="t0"></a><a href="https://en.wikipedia.org/wiki/Matrix_calculus" rel="nofollow" target="_blank">原文地址</a></h1>

注:不要把它和几何运算或者是向量运算混淆

前言:

在数学中,矩阵微积分是进行多变量微积分的一种特殊符号,特别是在矩阵的空间上。 它将关于许多变量的单个函数的各种偏导数和/或关于单个变量的多变量函数的偏导数收集到可以被视为单个实体的向量和矩阵中。 这大大简化例如找到多元函数的最大值或最小值,以及求解微分方程组的操作。 这里使用的符号通常用于统计和工程中,而张量指数符号在物理学中是比较常用的。
两种对立的符号(行向量和列向量)把矩阵微积分分成了两个独立的阵营。这两个阵营的区别就是他们把标量的导数以行向量还是列向量写入。以行向量还是列向量写入都是可能的,即使人们通常在和矩阵同时处理的时候是以行向量(而不是列向量)的形式写入。一个简单的约定(使用行向量还是列向量)可能成为某个经常使用矩阵微积分计算的行业的业内标准(比如,经济学,统计学,估计理论,和机器学习)。但是即便是某个固定领域中的作者也可能同时使用这两种书写方式。即使在这个领域中已经有了一个大家都认可的规范书写方式。如果不认真处理这两种书写方式混用的情况,则会导致非常严重的错误。因此必须保证符号一致性,这两种约定和他们的区别在布局约定的时候就已经确定了。

范围

矩阵微积分是指一组不同的符号,这组符号使用矩阵和向量来收集因变量的每个分量相对于自变量的每个分量的导数。总的来说,自变量可以是标量,向量,或者是一个矩阵,因变量也可以是上述的三者之一。每一种不同的自变量和因变量的组合都有不同的一套运算规则。矩阵符号是一种有组织的可以方便收集很多导数的方式。
作为第一个例子,考虑向量微积分中的梯度运算。对于一个有三个自变量的标量方程,f(x1,x2,x3)” role=”presentation” style=”position: relative;”>f(x1,x2,x3)f(x1,x2,x3),梯度被定义为下面的方程式:

&#x2207;f=&#x2202;f&#x2202;x1x1&#x005E;+&#x2202;f&#x2202;x2x2&#x005E;+&#x2202;f&#x2202;x3x3&#x005E;” role=”presentation” style=”text-align: center; position: relative;”>f=fx1x1^+fx2x2^+fx3x3^∇f=∂f∂x1x1^+∂f∂x2x2^+∂f∂x3x3^
\nabla f=\dfrac{\partial f}{\partial x_1}\hat{x_1}+\dfrac{\partial f}{\partial x_2}\hat{x_2}+\dfrac{\partial f}{\partial x_3}\hat{x_3}
其中: xi&#x005E;&#xA0;i&#x2264;i&#x2264;3” role=”presentation”>xi^ ii3xi^ i≤i≤3的和是单位向量。
这种形式的导数可以被看作是标量 f” role=”presentation”>ff其结果可以被向量形式表示。
&#x2207;f=&#x2202;f&#x2202;x=[&#x2202;f&#x2202;x1&#xA0;&#x2202;f&#x2202;x2&#xA0;&#x2202;f&#x2202;x3]T” role=”presentation” style=”text-align: center; position: relative;”>f=fx=[fx1 fx2 fx3]T∇f=∂f∂x=[∂f∂x1 ∂f∂x2 ∂f∂x3]T
\nabla f=\dfrac{\partial f}{\partial \mathbf{x}}=\left[\dfrac{\partial f}{\partial x_1} \space\dfrac{\partial f}{\partial x_2}\space\dfrac{\partial f}{\partial x_3}\right]^T
更为复杂的形式是一个标量方程对一个矩阵进行求导,也就是梯度矩阵,这个矩阵收集了每一个矩阵元素对应位置的求导结果。如果是那样,被求导的标量就必须是一个包含了所有的矩阵元素的方程。作为另一个例子,如果我们有一个由 m” role=”presentation”>mm中可能的相互求导的方式。当然有些方式的结果维度太高,于是结果过于复杂。
下表收集了六种矩阵形式最整齐的求导结果:

形式标量向量矩阵
标量&#x2202;y&#x2202;x” role=”presentation” style=”position: relative;”>yx∂y∂x&#x2202;y&#x2202;x” role=”presentation” style=”position: relative;”>yx∂y∂x&#x2202;Y&#x2202;x” role=”presentation” style=”position: relative;”>Yx∂Y∂x
向量&#x2202;y&#x2202;x” role=”presentation” style=”position: relative;”>yx∂y∂x&#x2202;y&#x2202;x” role=”presentation” style=”position: relative;”>yx∂y∂x
矩阵&#x2202;y&#x2202;X” role=”presentation” style=”position: relative;”>yX∂y∂X

在这里我们把矩阵作为最一般的情况,把向量和标量分别视为矩阵的特殊形式。而且,我们使用粗体小写字母代表向量,粗体大写字目代表矩阵。这些符号的使用是贯通全文的。
注意到我们也可以讨论向量对矩阵求导,或者是上表中的任何没有填写的部分。然而这些求导的结果的维度太高,所以不能被写成2维矩阵形式。在接下来的三个章节中我们将定义每一种求导形式和与他们相关的一系列的数学计算。请参阅布局约定部分以获取更详细的表格。

和其他导数的关系

矩阵求导不过是一种方便计算的用来保存一系列偏导结果的符号。Fréchet导数是在设置功能性分析的标准的方式,以获取有关向量的导数。在矩阵的矩阵函数为Fréchet可微的情况下,这两个导数将允许符号的转换。 一般在偏导数的情况下,一些公式可能会在弱分析条件下延伸,而不是像导数的存在那样近似线性映射。

用途

矩阵微积分用于推导最优随机估计量,通常涉及使用拉格朗日乘子。 这包括的导数有:

  • 卡尔曼滤波器
  • 维纳过滤器
  • 高斯混合的期望最大化算法

符号

向量和矩阵的偏导数在本节和后面的章节中使用矩阵符号,使用一个变量代表众多变量。在后面的章节中,我们为了区分标量,向量和矩阵将采用不同的书写方式。我们使用M(n,m)” role=”presentation” style=”position: relative;”>M(n,m)M(n,m)
注:综上所述,在向量和矩阵中偏导数编排系统中存在不同的符号表示。而且到目前为止都没有一个标准。为了方便,在后面两个章节中,我们统一采用分子布局规范,同时避免更为复杂的讨论。更后面的章节将更加深入讨论布局规范。认识到下面这些是很重要的:

  1. 尽管有“分子布局”和“分母布局”,但是实际上还有多于两种的符号布局可以选择。选择“分子”vs” role=”presentation” style=”position: relative;”>vsvs“混合”)可以独立地进行,标量对向量,向量对标量,向量对向量,向量对矩阵地偏导。有些作者混合使用不同的布局方式。
  2. 下面选择“分子布局”选择并不意味着“分子布局”这是“正确的”或“优越的”选择。 各种布局类型都有优点和缺点。 如果不小心将不同布局的公式结合在一起,就可能导致严重的错误,并且从一个布局转换到另一个时需要注意避免这样的错误。 因此,在使用现有公式时,最好的策略可能是识别使用哪种布局并保持布局一致性,而不是尝试在所有情况下使用相同的布局。

备选方案

张量索引符号以其爱因斯坦求和约定和矩阵微积分演算是非常相似的,除了一次一个写入仅表示单一组分。它的优点是可以很容易地操作任意高阶张量,而高于二阶的张量则用矩阵符号很难操作。这里所有的工作都可以在不使用单变量矩阵表示法的情况下完成。然而,在估计理论和应用数学的其他领域的许多问题将导致太多的指标得到适当的跟踪,指向这些领域的矩阵微积分。而且,爱因斯坦符号在证明这里提出的身份方面是非常有用的(参见区分一节)作为典型元素符号的替代方法,当明确的和数被执行时会变得麻烦。请注意,矩阵可以被认为是二级张量。

向量求导

因为向量是只有一列的矩阵,所以对向量的偏导是最简单的矩阵偏导。
这里的符号可以通过识别具有欧几里得空间Rn” role=”presentation” style=”position: relative;”>RnRn来容纳向量演算的常规操作。 对应的向量微积分在每个小节结束时指出。
注:本节中的讨论假定用于教学目的的分子布局约定。 一些作者使用不同的约定。 关于布局约定的部分更详细地讨论了这个问题。

向量对标量求导

向量y=[

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值