矩阵的迹与矩阵微商
最近学习多元统计分析,使用的教材是《应用多元统计分析》(高惠璇)。在做第二章作业时遇到一些困难,但在附录中找到了部分适用结论,现搬运如下,并对部分关于迹的结论尝试证明。
1.矩阵的迹
定义:设
A
A
A为
p
p
p阶方阵,则它的对角线元素之和称为
A
A
A的迹(trace),记作
t
r
(
A
)
{\rm tr}(A)
tr(A),即
t
r
(
A
)
=
a
11
+
⋯
+
a
p
p
.
{\rm tr}(A)=a_{11}+\cdots+a_{pp}.
tr(A)=a11+⋯+app.
性质1:若
λ
1
,
⋯
,
λ
p
\lambda_1,\cdots,\lambda _p
λ1,⋯,λp为
A
A
A的特征值,则
t
r
(
A
)
=
λ
1
+
λ
2
+
⋯
+
λ
p
{\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_p
tr(A)=λ1+λ2+⋯+λp。
矩阵 A A A的特征多项式为 f ( λ ) = ∣ λ I − A ∣ f(\lambda)=|\lambda I-A| f(λ)=∣λI−A∣,其中必定包含以下一项: ( λ − a 11 ) ( λ − a 22 ) ⋯ ( λ − a p p ) (\lambda -a_{11})(\lambda -a_{22})\cdots(\lambda -a_{pp}) (λ−a11)(λ−a22)⋯(λ−app),且由行列式的定义,与这一项不同的项至少包含一个 ( − a i j ) (-a_{ij}) (−aij),从而不能够包含 ( λ − a i i ) (\lambda -a_{ii}) (λ−aii)与 ( λ − a j j ) (\lambda -a_{jj}) (λ−ajj),那么至多只有 λ n − 2 \lambda^{n-2} λn−2的次数。
因此,我们得到 λ n − 1 \lambda^{n-1} λn−1项之前的系数一定是 − ( a 11 + ⋯ + a p p ) -(a_{11}+\cdots+a_{pp}) −(a11+⋯+app)。又因为
∣ λ I − A ∣ = ( λ − λ 1 ) ⋯ ( λ − λ n ) , |\lambda I-A|=(\lambda-\lambda_1)\cdots(\lambda -\lambda_n), ∣λI−A∣=(λ−λ1)⋯(λ−λn),
所以 λ n − 1 \lambda^{n-1} λn−1项前的系数一定是 − ( λ 1 + ⋯ + λ n ) -(\lambda_1+\cdots+\lambda_n) −(λ1+⋯+λn),所以有
a 11 + a 22 + ⋯ + a p p = t r ( A ) = λ 1 + λ 2 + ⋯ + λ n . a_{11}+a_{22}+\cdots+a_{pp}={\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_n. a11+a22+⋯+app=tr(A)=λ1+λ2+⋯+λn.
性质2:对于 n n n阶方阵 A , B A,B A,B, t r ( A B ) = t r ( B A ) {\rm tr}(AB)={\rm tr}(BA) tr(AB)=tr(BA)。
假设 A = ( a i j ) , B = ( b i j ) A=(a_{ij}),B=(b_{ij}) A=(aij),B=(bij),则
t r ( A B ) = ∑ k = 1 n ( A B ) k k = ∑ k = 1 n ( ∑ i = 1 n a k i b i k ) , t r ( B A ) = ∑ k = 1 n ( B A ) k k = ∑ k = 1 n ( ∑ i = 1 n b k i a i k ) = ∑ i = 1 n ( ∑ k = 1 n a i k b k i ) . {\rm tr}(AB)=\sum_{k=1}^n (AB)_{kk}=\sum_{k=1}^n\left(\sum_{i=1}^n a_{ki}b_{ik} \right),\\ {\rm tr}(BA)=\sum_{k=1}^n (BA)_{kk}=\sum_{k=1}^n \left(\sum_{i=1}^n b_{ki}a_{ik} \right)=\sum_{i=1}^n \left(\sum_{k=1}^n a_{ik}b_{ki} \right). tr(AB)=k=1∑n(AB)kk=k=1∑n(i=1∑nakibik),tr(BA)=k=1∑n(BA)kk=k=1∑n(i=1∑nbkiaik)=i=1∑n(k=1∑naikbki).
对比两式就得到结果。
性质3: t r ( A ) = t r ( A ′ ) {\rm tr}(A)={\rm tr}(A') tr(A)=tr(A′)。
性质4: t r ( A + B ) = t r ( A ) + t r ( B ) {\rm tr}(A+B)={\rm tr}(A)+{\rm tr}(B) tr(A+B)=tr(A)+tr(B)。
性质5: t r ( ∑ α = 1 k A α ) = ∑ α = 1 n t r ( A α ) {\rm tr}(\sum_{\alpha=1}^k A_\alpha)=\sum_{\alpha=1}^n {\rm tr}(A_\alpha) tr(∑α=1kAα)=∑α=1ntr(Aα)。
以上三条性质是显然的。
性质6:若 A A A为投影矩阵,则 t r ( A ) = r a n k ( A ) {\rm tr}(A)={\rm rank}(A) tr(A)=rank(A),投影矩阵指对称的幂等矩阵。
需要用到的准备知识是,对称矩阵必定可以正交对角化,幂等矩阵的特征值为 0 0 0或 1 1 1。
由于 A A A是对称矩阵,所以存在一个正交矩阵 Γ \Gamma Γ和对角矩阵 V = d i a g ( λ 1 , ⋯ , λ n ) V={\rm diag}(\lambda_1,\cdots,\lambda_n) V=diag(λ1,⋯,λn),使得
A = Γ ′ V Γ , t r ( A ) = t r ( Γ ′ V Γ ) = t r ( V ) = ∑ i = 1 n λ i . A=\Gamma'V\Gamma,{\rm tr}(A)={\rm tr}(\Gamma'V\Gamma)={\rm tr}(V)=\sum_{i=1}^n \lambda_i. A=Γ′VΓ,tr(A)=tr(Γ′VΓ)=tr(V)=i=1∑nλi.
又因为幂等矩阵的特征值只能为0或1,所以 t r ( A ) {\rm tr}(A) tr(A)等于特征值中1的个数,即矩阵 A A A的秩。
2.矩阵微商
分为以下几种情况。
1.自变量是一元变量 x x x
如果
y
=
(
y
1
,
⋯
,
y
p
)
′
y=(y_1,\cdots,y_p)'
y=(y1,⋯,yp)′是关于
x
x
x的向量函数,则
d
y
d
x
=
(
d
y
1
d
x
,
d
y
2
d
x
,
⋯
,
d
y
p
d
x
)
′
.
\frac {{\rm d}y}{{\rm d}x}=\left( \frac{{\rm d}y_1}{{\rm d}x}, \frac{{\rm d}y_2}{{\rm d}x},\cdots, \frac{{\rm d}y_p}{{\rm d}x} \right)'.
dxdy=(dxdy1,dxdy2,⋯,dxdyp)′.
也就是说,
p
p
p维向量
y
y
y对变量
x
x
x的导数仍然是
p
p
p维向量,称为导数向量。
如果
Y
=
F
(
x
)
Y=F(x)
Y=F(x)是
x
x
x的矩阵函数,
Y
=
(
y
i
j
)
Y=(y_{ij})
Y=(yij)是
p
×
q
p\times q
p×q矩阵,则
d
Y
d
x
=
(
d
y
i
j
d
x
)
p
×
q
.
\frac{{\rm d}Y}{{\rm d}x}=\left(\frac{{\rm d}y_{ij}}{{\rm d}x}\right)_{p\times q}.
dxdY=(dxdyij)p×q.
也就是说,
p
×
q
p\times q
p×q矩阵
Y
Y
Y对变量
x
x
x的导数仍然是
p
×
q
p\times q
p×q矩阵,称为导数矩阵。
2.自变量是 p p p维向量 x = ( x 1 , ⋯ , x p ) ′ x=(x_1,\cdots,x_p)' x=(x1,⋯,xp)′
如果
y
=
f
(
x
)
y=f(x)
y=f(x)是
x
x
x的一元函数,令其他为常数,
x
i
x_i
xi为常数求导可以求得
y
y
y对
x
i
x_i
xi的偏导数,则
∂
f
∂
x
=
(
∂
f
∂
x
1
,
⋯
,
∂
f
∂
x
p
)
′
.
\frac{\partial f}{\partial x}=\left( \frac{\partial f}{\partial x_1},\cdots ,\frac{\partial f}{\partial x_p} \right)'.
∂x∂f=(∂x1∂f,⋯,∂xp∂f)′.
也就是说,一元函数
f
f
f对向量
x
x
x的导数是
p
p
p为向量,称为偏导数向量。
如果
y
=
(
y
1
,
⋯
,
y
q
)
′
y=(y_1,\cdots,y_q)'
y=(y1,⋯,yq)′是向量
x
x
x的
q
q
q维向量函数,即
y
i
=
f
i
(
x
)
y_i=f_i(x)
yi=fi(x),则
∂
y
∂
x
=
(
∂
y
i
∂
x
j
)
p
×
q
=
[
∂
y
1
∂
x
1
⋯
∂
y
q
∂
x
1
⋮
⋮
∂
y
1
∂
x
p
⋯
∂
y
q
∂
x
p
]
.
\frac{\partial y}{\partial x}=\left( \frac{\partial y_i}{\partial x_j} \right)_{p\times q}= \left[\begin{matrix} \frac{\partial y_1}{\partial x_1}&\cdots&\frac{\partial y_q}{\partial x_1}\\ \vdots&&\vdots\\ \frac{\partial y_1}{\partial x_p}&\cdots&\frac{\partial y_q}{\partial x_p} \end{matrix}\right].
∂x∂y=(∂xj∂yi)p×q=⎣⎢⎢⎡∂x1∂y1⋮∂xp∂y1⋯⋯∂x1∂yq⋮∂xp∂yq⎦⎥⎥⎤.
也就是说,
q
q
q维向量
y
y
y对
p
p
p维向量
x
x
x的导数是
p
×
q
p\times q
p×q矩阵,称为偏导数矩阵。特别当
p
=
q
p=q
p=q时,该矩阵的行列式称为Jacobian行列式。
如果
Y
Y
Y是
n
n
n阶方阵,即
Y
=
(
y
i
j
)
n
×
n
Y=(y_{ij})_{n\times n}
Y=(yij)n×n,则
∂
Y
∂
x
=
[
∂
y
11
∂
x
1
∂
y
12
∂
x
2
⋯
∂
y
1
n
∂
x
n
∂
y
21
∂
x
1
∂
y
22
∂
x
2
⋯
∂
y
2
n
∂
x
n
⋮
⋮
⋮
∂
y
n
1
∂
x
1
∂
y
n
2
∂
x
2
⋯
∂
y
n
n
∂
x
n
]
.
\frac{\partial Y}{\partial x}=\left[\begin{matrix} \frac{\partial y_{11}}{\partial x_1}&\frac{\partial y_{12}}{\partial x_2}&\cdots&\frac{\partial y_{1n}}{\partial x_n}\\ \frac{\partial y_{21}}{\partial x_1}&\frac{\partial y_{22}}{\partial x_2}&\cdots&\frac{\partial y_{2n}}{\partial x_n}\\ \vdots&\vdots&&\vdots\\ \frac{\partial y_{n1}}{\partial x_1}&\frac{\partial y_{n2}}{\partial x_2}&\cdots&\frac{\partial y_{nn}}{\partial x_n} \end{matrix}\right].
∂x∂Y=⎣⎢⎢⎢⎢⎡∂x1∂y11∂x1∂y21⋮∂x1∂yn1∂x2∂y12∂x2∂y22⋮∂x2∂yn2⋯⋯⋯∂xn∂y1n∂xn∂y2n⋮∂xn∂ynn⎦⎥⎥⎥⎥⎤.
也就是说,
n
n
n阶方阵
Y
Y
Y对
n
n
n维矩阵
x
x
x的导数是
n
n
n阶方阵。
自变量是矩阵 X X X
如果
y
=
f
(
X
)
y=f(X)
y=f(X)是
X
X
X的一元函数,则
∂
f
∂
X
=
[
∂
f
∂
X
i
j
]
.
\frac{\partial f}{\partial X}=\left[ \frac{\partial f}{\partial X_{ij}} \right].
∂X∂f=[∂Xij∂f].
也就是说,标量
y
y
y对矩阵
X
X
X的导数是一个矩阵,称为梯度矩阵。如果联系上矩阵微分,则有
d
f
=
∑
i
=
1
m
∑
j
=
1
n
∂
f
∂
X
i
j
d
X
i
j
=
t
r
(
∂
f
∂
X
′
d
X
)
{\rm d}f= \sum_{i=1}^m\sum_{j=1}^n\frac{\partial f}{\partial X_{ij}}{\rm d}X_{ij} ={\rm tr}\left( \frac{\partial f}{\partial X}'{\rm d}X \right)
df=i=1∑mj=1∑n∂Xij∂fdXij=tr(∂X∂f′dX)
常用结论
这里 β , x \beta,x β,x是(列)向量, A , B , C A,B,C A,B,C是与 x x x无关的矩阵。
(1)
∂
β
′
x
∂
x
=
β
.
\dfrac{\partial \beta'x}{\partial x}=\beta.
∂x∂β′x=β.
设
β
=
(
b
1
,
⋯
,
b
n
)
′
,
x
=
(
x
1
,
⋯
,
x
n
)
\beta=(b_1,\cdots,b_n)',x=(x_1,\cdots,x_n)
β=(b1,⋯,bn)′,x=(x1,⋯,xn),则
β
′
x
=
∑
i
=
1
n
b
i
x
i
\beta'x=\sum\limits_{i=1}^nb_ix_i
β′x=i=1∑nbixi,故
∂
β
′
x
∂
x
i
=
b
i
,
∂
β
′
x
∂
x
=
(
b
1
,
⋯
,
b
n
)
′
=
β
.
\frac{\partial \beta'x}{\partial x_i}=b_i,\quad \frac{\partial \beta'x}{\partial x}=(b_1,\cdots,b_n)'=\beta.
∂xi∂β′x=bi,∂x∂β′x=(b1,⋯,bn)′=β.
(2)
∂
x
′
x
∂
x
=
2
x
.
\frac{\partial x'x}{\partial x}=2x.
∂x∂x′x=2x.
x
′
x
=
∑
i
=
1
n
x
i
2
x'x=\sum_{i=1}^n x_i^2
x′x=∑i=1nxi2,故
∂
x
′
x
∂
x
i
=
2
x
i
,
∂
x
′
x
∂
x
=
2
(
x
1
,
⋯
,
x
n
)
′
=
2
x
.
\frac{\partial x'x}{\partial x_i}=2x_i,\quad \frac{\partial x'x}{\partial x}=2(x_1,\cdots,x_n)'=2x.
∂xi∂x′x=2xi,∂x∂x′x=2(x1,⋯,xn)′=2x.
(3)
∂
x
′
A
x
∂
x
=
(
A
+
A
′
)
x
.
\frac{\partial x'Ax}{\partial x}=(A+A')x.
∂x∂x′Ax=(A+A′)x.
设
A
=
(
a
i
j
)
n
×
n
A=(a_{ij})_{n\times n}
A=(aij)n×n,则
x
′
A
x
=
∑
i
=
1
n
∑
j
=
1
n
x
i
x
j
a
i
j
x'Ax=\sum\limits_{i=1}^n\sum\limits_{j=1}^n x_ix_ja_{ij}
x′Ax=i=1∑nj=1∑nxixjaij,所以
∂
x
′
A
x
∂
x
i
=
∑
k
=
1
n
x
k
a
i
k
+
∑
k
=
1
n
x
k
a
k
i
=
x
′
a
i
⋅
+
x
′
a
⋅
i
,
\frac{\partial x'Ax}{\partial x_i}=\sum_{k=1}^n x_ka_{ik}+\sum_{k=1}^nx_ka_{ki} =x'a_{i\cdot}+x'a_{\cdot i},
∂xi∂x′Ax=k=1∑nxkaik+k=1∑nxkaki=x′ai⋅+x′a⋅i,
于是
∂
x
′
A
x
∂
x
=
(
x
′
[
(
a
1
⋅
a
2
⋅
⋯
a
n
⋅
)
+
(
a
⋅
1
a
⋅
2
⋯
a
⋅
n
)
]
)
′
=
(
x
′
(
A
+
A
′
)
)
′
=
(
A
+
A
′
)
x
.
\frac{\partial x'Ax}{\partial x}=\Big(x'[(\begin{matrix}a_{1\cdot}&a_{2\cdot}&\cdots&a_{n\cdot}\end{matrix})+(\begin{matrix}a_{\cdot1}&a_{\cdot2}&\cdots&a_{\cdot n}\end{matrix})]\Big)'=\big(x'(A+A')\big)'=(A+A')x.
∂x∂x′Ax=(x′[(a1⋅a2⋅⋯an⋅)+(a⋅1a⋅2⋯a⋅n)])′=(x′(A+A′))′=(A+A′)x.
(4)当
A
A
A为实对称矩阵时,
∂
x
′
A
x
∂
A
=
x
x
′
.
\frac{\partial x'Ax}{\partial A}=xx'.
∂A∂x′Ax=xx′.
由于
x
′
A
x
=
∑
i
=
1
n
∑
j
=
1
n
x
i
x
j
a
i
j
x'Ax=\sum\limits_{i=1}^n\sum\limits_{j=1}^n x_ix_ja_{ij}
x′Ax=i=1∑nj=1∑nxixjaij,所以
∂
x
′
A
x
∂
a
i
j
=
x
i
x
j
,
\frac{\partial x'Ax}{\partial a_{ij}}=x_ix_j,
∂aij∂x′Ax=xixj,
所以
∂
x
′
A
x
∂
A
=
(
x
i
x
j
)
n
×
n
=
x
x
′
.
\frac{\partial x'Ax}{\partial A}=(x_ix_j)_{n\times n}=xx'.
∂A∂x′Ax=(xixj)n×n=xx′.
(5)当
A
A
A为实对称矩阵时,
∂
ln
∣
A
∣
∂
A
=
A
−
1
.
\frac{\partial \ln |A|}{\partial A}=A^{-1}.
∂A∂ln∣A∣=A−1.
这里
d
ln
∣
A
∣
=
∣
A
∣
−
1
d
∣
A
∣
=
t
r
(
A
−
1
d
A
)
.
{\rm d} \ln |A|=|A|^{-1}d|A|={\rm tr}(A^{-1}{\rm d}A).
dln∣A∣=∣A∣−1d∣A∣=tr(A−1dA).