矩阵的迹与矩阵微商

矩阵的迹与矩阵微商

最近学习多元统计分析,使用的教材是《应用多元统计分析》(高惠璇)。在做第二章作业时遇到一些困难,但在附录中找到了部分适用结论,现搬运如下,并对部分关于迹的结论尝试证明。

1.矩阵的迹

定义:设 A A A p p p阶方阵,则它的对角线元素之和称为 A A A的迹(trace),记作 t r ( A ) {\rm tr}(A) tr(A),即
t r ( A ) = a 11 + ⋯ + a p p . {\rm tr}(A)=a_{11}+\cdots+a_{pp}. tr(A)=a11++app.
性质1:若 λ 1 , ⋯   , λ p \lambda_1,\cdots,\lambda _p λ1,,λp A A A的特征值,则 t r ( A ) = λ 1 + λ 2 + ⋯ + λ p {\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_p tr(A)=λ1+λ2++λp

矩阵 A A A的特征多项式为 f ( λ ) = ∣ λ I − A ∣ f(\lambda)=|\lambda I-A| f(λ)=λIA,其中必定包含以下一项: ( λ − a 11 ) ( λ − a 22 ) ⋯ ( λ − a p p ) (\lambda -a_{11})(\lambda -a_{22})\cdots(\lambda -a_{pp}) (λa11)(λa22)(λapp),且由行列式的定义,与这一项不同的项至少包含一个 ( − a i j ) (-a_{ij}) (aij),从而不能够包含 ( λ − a i i ) (\lambda -a_{ii}) (λaii) ( λ − a j j ) (\lambda -a_{jj}) (λajj),那么至多只有 λ n − 2 \lambda^{n-2} λn2的次数。

因此,我们得到 λ n − 1 \lambda^{n-1} λn1项之前的系数一定是 − ( a 11 + ⋯ + a p p ) -(a_{11}+\cdots+a_{pp}) (a11++app)。又因为
∣ λ I − A ∣ = ( λ − λ 1 ) ⋯ ( λ − λ n ) , |\lambda I-A|=(\lambda-\lambda_1)\cdots(\lambda -\lambda_n), λIA=(λλ1)(λλn),
所以 λ n − 1 \lambda^{n-1} λn1项前的系数一定是 − ( λ 1 + ⋯ + λ n ) -(\lambda_1+\cdots+\lambda_n) (λ1++λn),所以有
a 11 + a 22 + ⋯ + a p p = t r ( A ) = λ 1 + λ 2 + ⋯ + λ n . a_{11}+a_{22}+\cdots+a_{pp}={\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_n. a11+a22++app=tr(A)=λ1+λ2++λn.

性质2:对于 n n n阶方阵 A , B A,B A,B t r ( A B ) = t r ( B A ) {\rm tr}(AB)={\rm tr}(BA) tr(AB)=tr(BA)

假设 A = ( a i j ) , B = ( b i j ) A=(a_{ij}),B=(b_{ij}) A=(aij),B=(bij),则
t r ( A B ) = ∑ k = 1 n ( A B ) k k = ∑ k = 1 n ( ∑ i = 1 n a k i b i k ) , t r ( B A ) = ∑ k = 1 n ( B A ) k k = ∑ k = 1 n ( ∑ i = 1 n b k i a i k ) = ∑ i = 1 n ( ∑ k = 1 n a i k b k i ) . {\rm tr}(AB)=\sum_{k=1}^n (AB)_{kk}=\sum_{k=1}^n\left(\sum_{i=1}^n a_{ki}b_{ik} \right),\\ {\rm tr}(BA)=\sum_{k=1}^n (BA)_{kk}=\sum_{k=1}^n \left(\sum_{i=1}^n b_{ki}a_{ik} \right)=\sum_{i=1}^n \left(\sum_{k=1}^n a_{ik}b_{ki} \right). tr(AB)=k=1n(AB)kk=k=1n(i=1nakibik),tr(BA)=k=1n(BA)kk=k=1n(i=1nbkiaik)=i=1n(k=1naikbki).
对比两式就得到结果。

性质3: t r ( A ) = t r ( A ′ ) {\rm tr}(A)={\rm tr}(A') tr(A)=tr(A)

性质4: t r ( A + B ) = t r ( A ) + t r ( B ) {\rm tr}(A+B)={\rm tr}(A)+{\rm tr}(B) tr(A+B)=tr(A)+tr(B)

性质5: t r ( ∑ α = 1 k A α ) = ∑ α = 1 n t r ( A α ) {\rm tr}(\sum_{\alpha=1}^k A_\alpha)=\sum_{\alpha=1}^n {\rm tr}(A_\alpha) tr(α=1kAα)=α=1ntr(Aα)

以上三条性质是显然的。

性质6:若 A A A为投影矩阵,则 t r ( A ) = r a n k ( A ) {\rm tr}(A)={\rm rank}(A) tr(A)=rank(A),投影矩阵指对称的幂等矩阵。

需要用到的准备知识是,对称矩阵必定可以正交对角化,幂等矩阵的特征值为 0 0 0 1 1 1

由于 A A A是对称矩阵,所以存在一个正交矩阵 Γ \Gamma Γ和对角矩阵 V = d i a g ( λ 1 , ⋯   , λ n ) V={\rm diag}(\lambda_1,\cdots,\lambda_n) V=diag(λ1,,λn),使得
A = Γ ′ V Γ , t r ( A ) = t r ( Γ ′ V Γ ) = t r ( V ) = ∑ i = 1 n λ i . A=\Gamma'V\Gamma,{\rm tr}(A)={\rm tr}(\Gamma'V\Gamma)={\rm tr}(V)=\sum_{i=1}^n \lambda_i. A=ΓVΓ,tr(A)=tr(ΓVΓ)=tr(V)=i=1nλi.
又因为幂等矩阵的特征值只能为0或1,所以 t r ( A ) {\rm tr}(A) tr(A)等于特征值中1的个数,即矩阵 A A A的秩。

2.矩阵微商

分为以下几种情况。

1.自变量是一元变量 x x x

如果 y = ( y 1 , ⋯   , y p ) ′ y=(y_1,\cdots,y_p)' y=(y1,,yp)是关于 x x x的向量函数,则
d y d x = ( d y 1 d x , d y 2 d x , ⋯   , d y p d x ) ′ . \frac {{\rm d}y}{{\rm d}x}=\left( \frac{{\rm d}y_1}{{\rm d}x}, \frac{{\rm d}y_2}{{\rm d}x},\cdots, \frac{{\rm d}y_p}{{\rm d}x} \right)'. dxdy=(dxdy1,dxdy2,,dxdyp).
也就是说, p p p维向量 y y y对变量 x x x的导数仍然是 p p p维向量,称为导数向量。

如果 Y = F ( x ) Y=F(x) Y=F(x) x x x的矩阵函数, Y = ( y i j ) Y=(y_{ij}) Y=(yij) p × q p\times q p×q矩阵,则
d Y d x = ( d y i j d x ) p × q . \frac{{\rm d}Y}{{\rm d}x}=\left(\frac{{\rm d}y_{ij}}{{\rm d}x}\right)_{p\times q}. dxdY=(dxdyij)p×q.
也就是说, p × q p\times q p×q矩阵 Y Y Y对变量 x x x的导数仍然是 p × q p\times q p×q矩阵,称为导数矩阵。

2.自变量是 p p p维向量 x = ( x 1 , ⋯   , x p ) ′ x=(x_1,\cdots,x_p)' x=(x1,,xp)

如果 y = f ( x ) y=f(x) y=f(x) x x x的一元函数,令其他为常数, x i x_i xi为常数求导可以求得 y y y x i x_i xi的偏导数,则
∂ f ∂ x = ( ∂ f ∂ x 1 , ⋯   , ∂ f ∂ x p ) ′ . \frac{\partial f}{\partial x}=\left( \frac{\partial f}{\partial x_1},\cdots ,\frac{\partial f}{\partial x_p} \right)'. xf=(x1f,,xpf).
也就是说,一元函数 f f f对向量 x x x的导数是 p p p为向量,称为偏导数向量。

如果 y = ( y 1 , ⋯   , y q ) ′ y=(y_1,\cdots,y_q)' y=(y1,,yq)是向量 x x x q q q维向量函数,即 y i = f i ( x ) y_i=f_i(x) yi=fi(x),则
∂ y ∂ x = ( ∂ y i ∂ x j ) p × q = [ ∂ y 1 ∂ x 1 ⋯ ∂ y q ∂ x 1 ⋮ ⋮ ∂ y 1 ∂ x p ⋯ ∂ y q ∂ x p ] . \frac{\partial y}{\partial x}=\left( \frac{\partial y_i}{\partial x_j} \right)_{p\times q}= \left[\begin{matrix} \frac{\partial y_1}{\partial x_1}&\cdots&\frac{\partial y_q}{\partial x_1}\\ \vdots&&\vdots\\ \frac{\partial y_1}{\partial x_p}&\cdots&\frac{\partial y_q}{\partial x_p} \end{matrix}\right]. xy=(xjyi)p×q=x1y1xpy1x1yqxpyq.
也就是说, q q q维向量 y y y p p p维向量 x x x的导数是 p × q p\times q p×q矩阵,称为偏导数矩阵。特别当 p = q p=q p=q时,该矩阵的行列式称为Jacobian行列式。

如果 Y Y Y n n n阶方阵,即 Y = ( y i j ) n × n Y=(y_{ij})_{n\times n} Y=(yij)n×n,则
∂ Y ∂ x = [ ∂ y 11 ∂ x 1 ∂ y 12 ∂ x 2 ⋯ ∂ y 1 n ∂ x n ∂ y 21 ∂ x 1 ∂ y 22 ∂ x 2 ⋯ ∂ y 2 n ∂ x n ⋮ ⋮ ⋮ ∂ y n 1 ∂ x 1 ∂ y n 2 ∂ x 2 ⋯ ∂ y n n ∂ x n ] . \frac{\partial Y}{\partial x}=\left[\begin{matrix} \frac{\partial y_{11}}{\partial x_1}&\frac{\partial y_{12}}{\partial x_2}&\cdots&\frac{\partial y_{1n}}{\partial x_n}\\ \frac{\partial y_{21}}{\partial x_1}&\frac{\partial y_{22}}{\partial x_2}&\cdots&\frac{\partial y_{2n}}{\partial x_n}\\ \vdots&\vdots&&\vdots\\ \frac{\partial y_{n1}}{\partial x_1}&\frac{\partial y_{n2}}{\partial x_2}&\cdots&\frac{\partial y_{nn}}{\partial x_n} \end{matrix}\right]. xY=x1y11x1y21x1yn1x2y12x2y22x2yn2xny1nxny2nxnynn.
也就是说, n n n阶方阵 Y Y Y n n n维矩阵 x x x的导数是 n n n阶方阵。

自变量是矩阵 X X X

如果 y = f ( X ) y=f(X) y=f(X) X X X的一元函数,则
∂ f ∂ X = [ ∂ f ∂ X i j ] . \frac{\partial f}{\partial X}=\left[ \frac{\partial f}{\partial X_{ij}} \right]. Xf=[Xijf].
也就是说,标量 y y y对矩阵 X X X的导数是一个矩阵,称为梯度矩阵。如果联系上矩阵微分,则有
d f = ∑ i = 1 m ∑ j = 1 n ∂ f ∂ X i j d X i j = t r ( ∂ f ∂ X ′ d X ) {\rm d}f= \sum_{i=1}^m\sum_{j=1}^n\frac{\partial f}{\partial X_{ij}}{\rm d}X_{ij} ={\rm tr}\left( \frac{\partial f}{\partial X}'{\rm d}X \right) df=i=1mj=1nXijfdXij=tr(XfdX)

常用结论

这里 β , x \beta,x β,x是(列)向量, A , B , C A,B,C A,B,C是与 x x x无关的矩阵。

(1)
∂ β ′ x ∂ x = β . \dfrac{\partial \beta'x}{\partial x}=\beta. xβx=β.
β = ( b 1 , ⋯   , b n ) ′ , x = ( x 1 , ⋯   , x n ) \beta=(b_1,\cdots,b_n)',x=(x_1,\cdots,x_n) β=(b1,,bn),x=(x1,,xn),则 β ′ x = ∑ i = 1 n b i x i \beta'x=\sum\limits_{i=1}^nb_ix_i βx=i=1nbixi,故
∂ β ′ x ∂ x i = b i , ∂ β ′ x ∂ x = ( b 1 , ⋯   , b n ) ′ = β . \frac{\partial \beta'x}{\partial x_i}=b_i,\quad \frac{\partial \beta'x}{\partial x}=(b_1,\cdots,b_n)'=\beta. xiβx=bi,xβx=(b1,,bn)=β.
(2)
∂ x ′ x ∂ x = 2 x . \frac{\partial x'x}{\partial x}=2x. xxx=2x.
x ′ x = ∑ i = 1 n x i 2 x'x=\sum_{i=1}^n x_i^2 xx=i=1nxi2,故
∂ x ′ x ∂ x i = 2 x i , ∂ x ′ x ∂ x = 2 ( x 1 , ⋯   , x n ) ′ = 2 x . \frac{\partial x'x}{\partial x_i}=2x_i,\quad \frac{\partial x'x}{\partial x}=2(x_1,\cdots,x_n)'=2x. xixx=2xi,xxx=2(x1,,xn)=2x.
(3)
∂ x ′ A x ∂ x = ( A + A ′ ) x . \frac{\partial x'Ax}{\partial x}=(A+A')x. xxAx=(A+A)x.
A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij)n×n,则 x ′ A x = ∑ i = 1 n ∑ j = 1 n x i x j a i j x'Ax=\sum\limits_{i=1}^n\sum\limits_{j=1}^n x_ix_ja_{ij} xAx=i=1nj=1nxixjaij,所以
∂ x ′ A x ∂ x i = ∑ k = 1 n x k a i k + ∑ k = 1 n x k a k i = x ′ a i ⋅ + x ′ a ⋅ i , \frac{\partial x'Ax}{\partial x_i}=\sum_{k=1}^n x_ka_{ik}+\sum_{k=1}^nx_ka_{ki} =x'a_{i\cdot}+x'a_{\cdot i}, xixAx=k=1nxkaik+k=1nxkaki=xai+xai,
于是
∂ x ′ A x ∂ x = ( x ′ [ ( a 1 ⋅ a 2 ⋅ ⋯ a n ⋅ ) + ( a ⋅ 1 a ⋅ 2 ⋯ a ⋅ n ) ] ) ′ = ( x ′ ( A + A ′ ) ) ′ = ( A + A ′ ) x . \frac{\partial x'Ax}{\partial x}=\Big(x'[(\begin{matrix}a_{1\cdot}&a_{2\cdot}&\cdots&a_{n\cdot}\end{matrix})+(\begin{matrix}a_{\cdot1}&a_{\cdot2}&\cdots&a_{\cdot n}\end{matrix})]\Big)'=\big(x'(A+A')\big)'=(A+A')x. xxAx=(x[(a1a2an)+(a1a2an)])=(x(A+A))=(A+A)x.

(4)当 A A A为实对称矩阵时,
∂ x ′ A x ∂ A = x x ′ . \frac{\partial x'Ax}{\partial A}=xx'. AxAx=xx.
由于 x ′ A x = ∑ i = 1 n ∑ j = 1 n x i x j a i j x'Ax=\sum\limits_{i=1}^n\sum\limits_{j=1}^n x_ix_ja_{ij} xAx=i=1nj=1nxixjaij,所以
∂ x ′ A x ∂ a i j = x i x j , \frac{\partial x'Ax}{\partial a_{ij}}=x_ix_j, aijxAx=xixj,
所以
∂ x ′ A x ∂ A = ( x i x j ) n × n = x x ′ . \frac{\partial x'Ax}{\partial A}=(x_ix_j)_{n\times n}=xx'. AxAx=(xixj)n×n=xx.
(5)当 A A A为实对称矩阵时,
∂ ln ⁡ ∣ A ∣ ∂ A = A − 1 . \frac{\partial \ln |A|}{\partial A}=A^{-1}. AlnA=A1.

这里
d ln ⁡ ∣ A ∣ = ∣ A ∣ − 1 d ∣ A ∣ = t r ( A − 1 d A ) . {\rm d} \ln |A|=|A|^{-1}d|A|={\rm tr}(A^{-1}{\rm d}A). dlnA=A1dA=tr(A1dA).

  • 6
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值