前言
本篇是矩阵迹的学习,迹(trace)常用于矩阵求导。
迹的定义
对于 A ∈ R n × n A\in R^{n\times n} A∈Rn×n,矩阵的迹trace,就是主对角线元素的和。
注意:方阵才有迹!
迹的性质
A = [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n … … … … a n 1 a n 2 … a n n ] A=\begin{bmatrix} a_{11} & a_{12} & \dots &a_{1n}\\ a_{21} & a_{22} & \dots &a_{2n}\\ \dots & \dots & \dots &\dots\\ a_{n1} & a_{n2} & \dots &a_{nn} \end{bmatrix} A=⎣⎢⎢⎡a11a21…an1a12a22…an2…………a1na2n…ann⎦⎥⎥⎤
性质0:标量的迹等于自己。
性质1:矩阵的迹等于其特征值之和。
证明:
对
于
矩
阵
的
特
征
值
有
:
A
x
=
λ
x
,
(
λ
E
−
A
)
x
=
0
,
x
≠
0
⃗
(
λ
E
−
A
)
=
[
λ
−
a
11
a
12
…
a
1
n
a
21
λ
−
a
22
…
a
2
n
…
…
…
…
a
n
1
a
n
2
…
λ
−
a
n
n
]
=
(
λ
−
a
11
)
(
λ
−
a
22
)
…
(
λ
−
a
n
n
)
+
∑
a
1
i
∣
A
∣
1
i
∑
a
1
i
∣
A
∣
1
i
是
第
一
行
其
它
元
素
与
其
代
数
余
子
式
的
乘
积
的
和
∑
a
1
i
∣
A
∣
1
i
的
最
高
次
项
只
有
λ
n
−
2
而
特
征
方
程
有
:
(
λ
−
λ
1
)
(
λ
−
λ
2
)
…
(
λ
−
λ
n
)
=
0
比
较
λ
n
−
1
项
,
可
得
∑
i
=
1
n
a
i
i
=
∑
i
=
1
n
λ
i
t
r
(
A
)
=
∑
i
=
1
n
λ
i
对于矩阵的特征值有: \\ \quad \\ Ax=\lambda x,(\lambda E-A)x=0,x\ne \vec0 \\ (\lambda E-A)=\begin{bmatrix} \lambda-a_{11} & a_{12} & \dots &a_{1n}\\ a_{21} & \lambda-a_{22} & \dots &a_{2n}\\ \dots & \dots & \dots &\dots\\ a_{n1} & a_{n2} & \dots &\lambda-a_{nn} \end{bmatrix} \\ =(\lambda-a_{11})(\lambda-a_{22})\dots(\lambda-a_{nn}) + \sum a_{1i}|A|_{1_i} \\ \quad \\ \sum a_{1i}|A|_{1_i}是第一行其它元素与其代数余子式的乘积的和\\ \sum a_{1i}|A|_{1_i}的最高次项只有\lambda^{n-2} \\ \quad \\ 而特征方程有:\\ (\lambda-\lambda_{1})(\lambda-\lambda_{2})\dots(\lambda-\lambda_{n})=0 \\ \quad \\ 比较\lambda^{n-1}项,可得\sum_{i=1}^n a_{ii}=\sum_{i=1}^n \lambda_i \\ \quad \\ tr(A)=\sum_{i=1}^n \lambda_i
对于矩阵的特征值有:Ax=λx,(λE−A)x=0,x=0(λE−A)=⎣⎢⎢⎡λ−a11a21…an1a12λ−a22…an2…………a1na2n…λ−ann⎦⎥⎥⎤=(λ−a11)(λ−a22)…(λ−ann)+∑a1i∣A∣1i∑a1i∣A∣1i是第一行其它元素与其代数余子式的乘积的和∑a1i∣A∣1i的最高次项只有λn−2而特征方程有:(λ−λ1)(λ−λ2)…(λ−λn)=0比较λn−1项,可得i=1∑naii=i=1∑nλitr(A)=i=1∑nλi
性质2:矩阵转置迹不变。
t
r
(
A
T
)
=
t
r
(
A
)
tr(A^T)=tr(A)
tr(AT)=tr(A)
转置不影响主对角线元素。
性质3:矩阵乘法的迹满足交换律。
t
r
(
A
B
)
=
t
r
(
B
A
)
t
r
(
A
B
C
)
=
t
r
(
B
C
A
)
=
t
r
(
C
A
B
)
tr(AB)=tr(BA)\\ tr(ABC)=tr(BCA)=tr(CAB)
tr(AB)=tr(BA)tr(ABC)=tr(BCA)=tr(CAB)
证明:
t
r
(
A
B
T
)
=
∑
i
=
1
n
∑
i
=
1
n
a
i
i
b
i
i
t
r
(
A
T
B
)
=
∑
i
=
1
n
∑
i
=
1
n
b
i
i
a
i
i
=
t
r
(
B
T
A
)
=
t
r
(
A
B
T
)
tr(AB^T)=\sum_{i=1}^n \sum_{i=1}^n a_{ii}b_{ii} \\ tr(A^TB)=\sum_{i=1}^n \sum_{i=1}^n b_{ii}a_{ii} =tr(B^TA)=tr(AB^T)
tr(ABT)=i=1∑ni=1∑naiibiitr(ATB)=i=1∑ni=1∑nbiiaii=tr(BTA)=tr(ABT)
性质4(性质3的证明中的推广): A ∈ R m × n A\in R^{m\times n} A∈Rm×n, A , B A,B A,B同型,则 t r ( A B T ) tr(AB^T) tr(ABT)是 A , B A,B A,B对应位置元素乘积的和,相当于矩阵点积。
当
A
,
B
A,B
A,B退化为向量时,性质4就变成了向量点积:
t
r
(
a
b
T
)
=
t
r
(
b
T
a
)
=
b
T
a
tr(ab^T)=tr(b^Ta)=b^Ta
tr(abT)=tr(bTa)=bTa
性质5:线性。
t
r
(
c
1
A
+
c
2
B
)
=
c
1
t
r
(
A
)
+
c
2
t
r
(
B
)
tr(c_1A+c_2B)=c_1tr(A)+c_2tr(B)
tr(c1A+c2B)=c1tr(A)+c2tr(B)
后记
矩阵的迹性质还是挺简单的,但是涉及到矩阵的迹的求导时,就复杂了许多。
需要注意,性质3及其证明是矩阵求导中的常见操作。