矩阵迹的常用公式

1. 迹的定义

设矩阵 A = [ a i j ] A=[ a_{ij}] A=[aij]为大小为 n × n n\times n n×n的矩阵,矩阵 A A A的迹定义如下:
t r ( A ) = ∑ i = 1 n a i i tr(A)=\sum_{i=1}^{n} a_{ii} tr(A)=i=1naii

2. 常用公式

公式1:两个矩阵乘积的迹: t r ( A B ) = t r ( B A ) tr(AB) = tr(BA) tr(AB)=tr(BA)

公式2:三个矩阵乘积的迹:

t r ( A B C ) = t r ( C A B ) = t r ( B C A ) tr(ABC) = tr(CAB) = tr(BCA) tr(ABC)=tr(CAB)=tr(BCA)

公式3: t r ( A ) = t r ( A T ) tr(A) = tr(A^T) tr(A)=tr(AT)

3. 迹的求导

公式4 矩阵乘积的迹的求导:

∂ t r ( A B ) ∂ A = ∂ t r ( B A ) ∂ A = B T \frac{\partial tr(AB)}{\partial A} = \frac{\partial tr(BA)}{\partial A} = B^T Atr(AB)=Atr(BA)=BT

公式5 矩阵转置乘积的求导:

∂ t r ( A T B ) ∂ A = ∂ t r ( B A T ) ∂ A = B \frac{\partial tr(A^TB)}{\partial A} = \frac{\partial tr(BA^T)}{\partial A} = B Atr(ATB)=Atr(BAT)=B

公式6 包含两个变量矩阵的求导(自身及转置):

∂ t r ( A B A T C ) ∂ A = C A B + C T A B T \frac{\partial tr(ABA^TC)}{\partial A} = CAB + C^TAB^T Atr(ABATC)=CAB+CTABT
证明:
分布求导,可得:
∂ t r ( A B A T C ) ∂ A = ∂ t r ( A B A T C ) ∂ A + ∂ t r ( A T C A B ) ∂ A \frac{\partial tr(ABA^TC)}{\partial A} =\frac{\partial {tr(ABA^TC)}}{\partial{A}} + \frac{\partial{tr(A^TCAB)}}{\partial{A}} Atr(ABATC)=Atr(ABATC)+Atr(ATCAB)

∂ t r ( A B A T C ) ∂ A = ( B A T C ) T = C T A B T \frac{\partial {tr(ABA^TC)}}{\partial{A}} = (BA^TC)^T=C^TAB^T Atr(ABATC)=(BATC)T=CTABT

∂ t r ( A T C A B ) ∂ A = C A B \frac{\partial{tr(A^TCAB)}}{\partial{A}} = CAB Atr(ATCAB)=CAB
所以,
∂ t r ( A B A T C ) ∂ A = C A B + C T A B T \frac{\partial tr(ABA^TC)}{\partial A} = CAB + C^TAB^T Atr(ABATC)=CAB+CTABT

  • 5
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
矩阵微分在机器学习、图像处理和最优化等领域的公式推导中经常使用。以下是矩阵微分的常用公式推导: 1. 标量对向量的微分: 若 y 是标量函数,x 是列向量,则有 dy/dx = (∂y/∂x₁, ∂y/∂x₂, ..., ∂y/∂xₙ)。 2. 向量对标量的微分: 若 y 是列向量函数,x 是标量,则有 dy/dx = (∂y₁/∂x, ∂y₂/∂x, ..., ∂yₙ/∂x)ᵀ。 3. 向量对向量的微分(雅可比矩阵): 若 y 是列向量函数,x 是列向量,则有 J = (∂y/∂x) = [∂y₁/∂x₁, ∂y₁/∂x₂, ..., ∂y₁/∂xₙ; ∂y₂/∂x₁, ∂y₂/∂x₂, ..., ∂y₂/∂xₙ; ... ∂yₘ/∂x₁, ∂yₘ/∂x₂, ..., ∂yₘ/∂xₙ]。 4. 矩阵对标量的微分: 若 Y 是矩阵函数,x 是标量,则有 dY/dx = (∂Y/∂x) = [∂y₁/∂x, ∂y₂/∂x, ..., ∂yₘ/∂x],其中 yi 表示 Y 的第 i 行。 5. 标量对矩阵的微分: 若 y 是标量函数,X 是矩阵,则有 dy/dX = (∂y/∂X) = [∂y/∂X₁, ∂y/∂X₂, ..., ∂y/∂Xₙ],其中 ∂y/∂Xᵢ 表示对矩阵 X 的第 i 个元素求偏导数。 6. 矩阵矩阵的微分: 若 Y 是矩阵函数,X 是矩阵,则有 dY/dX = (∂Y/∂X) = [∂y₁/∂X, ∂y₂/∂X, ..., ∂yₘ/∂X],其中 ∂yᵢ/∂X 表示对矩阵 X 的每个元素求偏导数。 以上是矩阵微分的常用公式推导。请注意,这只是一些基础的公式,实际应用中可能会有更复杂的情况。如果你有更具体的问题或需要更深入的了解,请提出。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值