马氏距离,正态随机变量,协方差矩阵与相关矩阵
正交矩阵与正交变换
如果n阶矩阵A满足 A T A = E A^TA=E ATA=E(即 A − 1 = A T A^{-1}=A^T A−1=AT),那么称A为正交矩阵,简称正交阵。
对称矩阵的对角化
设 A A A为 n n n阶对称矩阵,则必有正交矩阵P,使 P − 1 A P = P T A P = Λ P^{-1}AP=P^TAP=\mathrm{\Lambda} P−1AP=PTAP=Λ,其中 Λ \mathrm{\Lambda} Λ 是以 A A A的 n n n个特征值为对角元的对角矩阵。
为什么要求马氏距离?
在一个身高样本中,衡量其中的一个身高 l i l_{i} li,可以用与均值的距离 l i − u l l_{i}-u_{l} li−ul,即随机变量与其均值的偏离程度。如果将这个样本中所有变量标准化,随机变量与均值的距离为 l i − u l σ \frac{l_{i}-u_{l}}{σ} σli−ul。比较其中两个身高间的距离,我们可以用 l i − u l σ l − l j − u l σ l \frac{l_{i}-u_{l}}{σ_{l}}-\frac{l_{j}-u_{l}}{σ_{l}} σlli−ul−σllj−ul。(标准化后的均值为0)
同理,在一个体重样本中,衡量其中的一个体重 m i m_i mi,可以用其标准化后的“距离” m i − μ m σ m \frac{m_i-\mu_m}{\sigma_m} σmmi−μm。
那么在一个(身高,体重) 二维样本中,一个单位是长度,一个单位是重量,该如何衡量随机变量 ( l i , m i ) \left(l_i,m_i\right) (li,mi)呢?是不是可以分别标准化以后,得到 ( l i − μ l σ l , m i − μ m σ m ) \left(\frac{l_i-\mu_l}{\sigma_l},\frac{m_i-\mu_m}{\sigma_m}\right) (σlli−μl,σmmi−μm),再按照 Δ L = x 2 + y 2 \mathrm{\Delta L}=\sqrt{x^2+y^2} ΔL=x2+y2,求这个点到中心 ( 0 , 0 ) \left(0,0\right) (0,0)的距离呢? 而对于两个随机变量 ( l i , m i ) \left(l_i,m_i\right) (li,mi)与 ( l j , m j ) \left(l_j,m_j\right) (lj,mj)的比较,是不是可以分别标准化以后,得到 ( l i − μ l σ l , m i − μ m σ m ) \left(\frac{l_i-\mu_l}{\sigma_l},\frac{m_i-\mu_m}{\sigma_m}\right) (σlli−μl,σmmi−μm)与 ( l j − μ l σ l , m j − μ m σ m ) \left(\frac{l_j-\mu_l}{\sigma_l},\frac{m_j-\mu_m}{\sigma_m}\right) (σllj−μl,σmmj−μm),再按照 Δ L = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 \mathrm{\Delta L}=\sqrt{\left(x_1-x_2\right)^2+\left(y_1-y_2\right)^2} ΔL=(x1−x2)2+(y1−y2)2,求这两个点之间的距离呢?
马氏距离定义(Baidu)
马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为 μ μ μ,协方差矩阵为 C C C的多变量向量,其马氏距离为 ( X − μ ) T C − 1 ( X − μ ) \sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)} (X−μ)TC−1(X−μ)。
正态随机变量与马氏距离
二维正态随机变量X1,X2的概率密度为
f
(
x
1
,
x
2
)
=
1
2
π
σ
1
σ
2
1
−
ρ
2
e
x
p
{
−
1
2
(
1
−
ρ
2
)
[
(
x
1
−
μ
1
)
2
σ
1
2
−
2
ρ
(
x
1
−
μ
1
)
(
x
2
−
μ
2
)
σ
1
σ
2
+
(
x
2
−
μ
2
)
2
σ
2
2
]
}
f\left(x_1,x_2\right)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp\left\{\frac{-1}{2\left(1-\rho^2\right)}\left[\frac{\left(x_1-\mu_1\right)^2}{\sigma_1^2}-2\rho\frac{\left(x_1-\mu_1\right)\left(x_2-\mu_2\right)}{\sigma_1\sigma_2}+\frac{\left(x_2-\mu_2\right)^2}{\sigma_2^2}\right]\right\}
f(x1,x2)=2πσ1σ21−ρ21exp{2(1−ρ2)−1[σ12(x1−μ1)2−2ρσ1σ2(x1−μ1)(x2−μ2)+σ22(x2−μ2)2]}
将上式中花括号内的式子写成矩阵形式,为此引入下面的列矩阵
X
=
(
x
1
x
2
)
,
μ
=
(
μ
1
μ
2
)
。
X=\binom{x_1}{x_2},μ=\binom{μ_1}{μ_2}。
X=(x2x1),μ=(μ2μ1)。
(
X
1
,
X
2
)
(X_1,X_2)
(X1,X2)的协方差矩阵为
C
=
[
c
11
c
12
c
21
c
22
]
=
[
σ
1
2
ρ
σ
1
σ
2
ρ
σ
1
σ
2
σ
2
2
]
C=\left[\begin{matrix}c_{11}&c_{12}\\c_{21}&c_{22}\\\end{matrix}\right]=\left[\begin{matrix}\sigma_1^2&\rho\sigma_1\sigma_2\\\rho\sigma_1\sigma_2&\sigma_2^2\\\end{matrix}\right]
C=[c11c21c12c22]=[σ12ρσ1σ2ρσ1σ2σ22]
它的行列式
d
e
t
C
=
σ
1
σ
2
(
1
−
ρ
2
)
det\ {C}=\sigma_1\sigma_2\left(1-\rho^2\right)
det C=σ1σ2(1−ρ2),
C
C
C的逆矩阵为
C
−
1
=
1
d
e
t
C
[
σ
2
2
−
ρ
σ
1
σ
2
−
ρ
σ
1
σ
2
σ
1
2
]
C^{-1}=\frac{1}{det\ {C}}\left[\begin{matrix}\sigma_2^2&-\rho\sigma_1\sigma_2\\-\rho\sigma_1\sigma_2&\sigma_1^2\\\end{matrix}\right]
C−1=det C1[σ22−ρσ1σ2−ρσ1σ2σ12]
经过计算可知
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
=
1
d
e
t
C
(
x
1
−
μ
1
x
2
−
μ
2
)
[
σ
2
2
−
ρ
σ
1
σ
2
−
ρ
σ
1
σ
2
σ
1
2
]
(
x
1
−
μ
1
x
2
−
μ
2
)
\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)=\frac{1}{det\ {C}}\left(\begin{matrix}x_1-\mu_1&x_2-\mu_2\\\end{matrix}\right)\left[\begin{matrix}\sigma_2^2&-\rho\sigma_1\sigma_2\\-\rho\sigma_1\sigma_2&\sigma_1^2\\\end{matrix}\right]\binom{x_1-μ_1}{x_2-μ_2}
(X−μ)TC−1(X−μ)=det C1(x1−μ1x2−μ2)[σ22−ρσ1σ2−ρσ1σ2σ12](x2−μ2x1−μ1)
=
1
1
−
ρ
2
[
(
x
1
−
μ
1
)
2
σ
1
2
−
2
ρ
(
x
1
−
μ
1
)
(
x
2
−
μ
2
)
σ
1
σ
2
+
(
x
2
−
μ
2
)
2
σ
2
2
]
=\frac{1}{1-\rho^2}\left[\frac{\left(x_1-\mu_1\right)^2}{\sigma_1^2}-2\rho\frac{\left(x_1-\mu_1\right)\left(x_2-\mu_2\right)}{\sigma_1\sigma_2}+\frac{\left(x_2-\mu_2\right)^2}{\sigma_2^2}\right]
=1−ρ21[σ12(x1−μ1)2−2ρσ1σ2(x1−μ1)(x2−μ2)+σ22(x2−μ2)2]
于是
(
X
1
,
X
2
)
(X_1,X_2)
(X1,X2)的概率密度可写成
f
(
x
1
,
x
2
)
=
1
2
π
2
/
2
d
e
t
C
1
/
2
e
x
p
{
−
1
2
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
}
f\left(x_1,x_2\right)=\frac{1}{{2\pi}^{2/2}{det\ {C}}^{1/2}}exp\left\{-\frac{1}{2}\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)\right\}
f(x1,x2)=2π2/2det C1/21exp{−21(X−μ)TC−1(X−μ)}
上式容易推广到
n
n
n维正态随机变量
(
X
1
,
X
2
,
X
3
,
⋯
,
X
n
)
\left(X_1,X_2,X_3,\cdots,X_n\right)
(X1,X2,X3,⋯,Xn)的情况。
引入矩阵
X
=
[
x
1
x
2
⋮
x
n
]
和
u
=
[
μ
1
μ
2
⋮
μ
n
]
=
[
E
(
X
1
)
E
(
X
2
)
⋮
E
(
X
n
)
]
X=\begin{bmatrix}x_1\\ x_2\\ ⋮\\ x_n\end{bmatrix}和u=\begin{bmatrix}μ_1\\ μ_2\\ ⋮\\ μ_n\end{bmatrix}=\begin{bmatrix}E\left(X_1\right)\\ E\left(X_2\right)\\ ⋮\\ E\left(X_n\right)\end{bmatrix}
X=⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤和u=⎣⎢⎢⎢⎡μ1μ2⋮μn⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡E(X1)E(X2)⋮E(Xn)⎦⎥⎥⎥⎤
n
n
n维正态随机变量
(
X
1
,
X
2
,
X
3
,
⋯
,
X
n
)
\left(X_1,X_2,X_3,\cdots,X_n\right)
(X1,X2,X3,⋯,Xn)的概率密度定义为
f
(
x
1
,
x
2
,
⋯
,
x
n
)
=
1
2
π
n
/
2
d
e
t
C
1
/
2
e
x
p
{
−
1
2
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
}
f\left(x_1,x_2,\cdots,x_n\right)=\frac{1}{{2\pi}^{n/2}{det\ {C}}^{1/2}}exp\left\{-\frac{1}{2}\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)\right\}
f(x1,x2,⋯,xn)=2πn/2det C1/21exp{−21(X−μ)TC−1(X−μ)}
其中
C
C
C是
(
X
1
,
X
2
,
X
3
,
⋯
,
X
n
)
\left(X_1,X_2,X_3,\cdots,X_n\right)
(X1,X2,X3,⋯,Xn)的协方差矩阵。
比较马氏距离定义中的
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
\sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)}
(X−μ)TC−1(X−μ)与
n
n
n维正态随机变量的概率密度定义,可以看出,都包含了
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)
(X−μ)TC−1(X−μ)。
公式解读
X 1 X_{1} X1和 X 2 X_{2} X2相互独立 ( ρ = 0 ) ({\rho}={0}) (ρ=0)
二维正态随机变量
(
X
1
,
X
2
)
\left(X_1,X_2\right)
(X1,X2),如果
X
1
X_1
X1和
X
2
X_2
X2相互独立(即不相关),即
ρ
=
0
\rho=0
ρ=0,则
C
=
[
c
11
c
12
c
21
c
22
]
=
[
σ
1
2
ρ
σ
1
σ
2
ρ
σ
1
σ
2
σ
2
2
]
=
[
σ
1
2
σ
2
2
]
C=\left[\begin{matrix}c_{11}&c_{12}\\c_{21}&c_{22}\\\end{matrix}\right]=\left[\begin{matrix}\sigma_1^2&\rho\sigma_1\sigma_2\\\rho\sigma_1\sigma_2&\sigma_2^2\\\end{matrix}\right]=\left[\begin{matrix}\sigma_1^2&\\&\sigma_2^2\\\end{matrix}\right]
C=[c11c21c12c22]=[σ12ρσ1σ2ρσ1σ2σ22]=[σ12σ22]
C
−
1
=
1
d
e
t
C
[
σ
2
2
−
ρ
σ
1
σ
2
−
ρ
σ
1
σ
2
σ
1
2
]
=
[
1
/
σ
1
2
1
/
σ
2
2
]
C^{-1}=\frac{1}{det\ {C}}\left[\begin{matrix}\sigma_2^2&-\rho\sigma_1\sigma_2\\-\rho\sigma_1\sigma_2&\sigma_1^2\\\end{matrix}\right]=\left[\begin{matrix}1/\sigma_1^2&\\&1/\sigma_2^2\\\end{matrix}\right]
C−1=det C1[σ22−ρσ1σ2−ρσ1σ2σ12]=[1/σ121/σ22]
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
=
(
x
1
−
μ
1
x
2
−
μ
2
)
[
1
/
σ
1
2
1
/
σ
1
2
]
(
x
1
−
μ
1
x
2
−
μ
2
)
\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)=\left(\begin{matrix}x_1-\mu_1&x_2-\mu_2\\\end{matrix}\right)\left[\begin{matrix}1/\sigma_1^2&\\&1/\sigma_1^2\\\end{matrix}\right]\binom{x_1-μ_1}{x_2-μ_2}
(X−μ)TC−1(X−μ)=(x1−μ1x2−μ2)[1/σ121/σ12](x2−μ2x1−μ1)
=
(
x
1
−
μ
1
σ
1
x
2
−
μ
2
σ
2
)
(
x
1
−
μ
1
σ
1
x
2
−
μ
2
σ
2
)
=\left(\begin{matrix}\frac{x_1-\mu_1}{\sigma_1}&\frac{x_2-\mu_2}{\sigma_2}\\\end{matrix}\right)\binom{\frac{x_1-\mu_1}{\sigma_1}}{\frac{x_2-\mu_2}{\sigma_2}}
=(σ1x1−μ1σ2x2−μ2)(σ2x2−μ2σ1x1−μ1)
=
(
x
1
−
μ
1
σ
1
)
2
+
(
x
2
−
μ
2
σ
2
)
2
=\left(\frac{x_1-\mu_1}{\sigma_1}\right)^2+\left(\frac{x_2-\mu_2}{\sigma_2}\right)^2
=(σ1x1−μ1)2+(σ2x2−μ2)2
根据马氏距离定义,
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
=
(
x
1
−
μ
1
σ
1
)
2
+
(
x
2
−
μ
2
σ
2
)
2
\sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)}=\sqrt{\left(\frac{x_1-\mu_1}{\sigma_1}\right)^2+\left(\frac{x_2-\mu_2}{\sigma_2}\right)^2}
(X−μ)TC−1(X−μ)=(σ1x1−μ1)2+(σ2x2−μ2)2
显然,
x
1
−
μ
1
σ
1
、
x
2
−
μ
2
σ
2
\frac{x_1-\mu_1}{\sigma_1}、\frac{x_2-\mu_2}{\sigma_2}
σ1x1−μ1、σ2x2−μ2都是标准化后的变量,马氏距离为点
(
X
1
,
X
2
)
\left(X_1,X_2\right)
(X1,X2)标准化后到中心
(
0
,
0
)
\left(0,0\right)
(0,0)的距离。
这样,是不是就符合我们前面衡量一个(身高,体重),猜想的方法呢?
事实是,现实中,身高与体重并不是毫不相关的,即相关系数
ρ
≠
0
\rho\neq0
ρ=0。
那么,当
X
1
X_1
X1和
X
2
X_2
X2相关(并不独立)时,如何衡量一个(身高,体重)呢?如何理解
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
\sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)}
(X−μ)TC−1(X−μ)呢?
X 1 X_{1} X1和 X 2 X_{2} X2相关 ( ρ ≠ 0 ) ({\rho}≠{0}) (ρ=0)
二维正态随机变量(略)。
对多维正态随机变量,
C
=
[
c
11
c
12
c
21
c
22
…
c
1
n
…
c
2
n
⋮
⋮
c
n
1
c
n
2
⋱
⋮
…
c
n
n
]
=
[
σ
1
2
ρ
12
σ
1
σ
2
ρ
12
σ
1
σ
2
σ
2
2
…
ρ
1
n
σ
1
σ
n
…
ρ
2
n
σ
2
σ
n
⋮
⋮
ρ
1
n
σ
1
σ
n
ρ
2
n
σ
2
σ
n
⋱
⋮
…
σ
n
2
]
C=\left[\begin{matrix}\begin{matrix}c_{11}&c_{12}\\c_{21}&c_{22}\\\end{matrix}&\begin{matrix}\ldots&c_{1n}\\\ldots&c_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\c_{n1}&c_{n2}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&c_{nn}\\\end{matrix}\\\end{matrix}\right]=\left[\begin{matrix}\begin{matrix}\sigma_1^2&\rho_{12}\sigma_1\sigma_2\\\rho_{12}\sigma_1\sigma_2&\sigma_2^2\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\sigma_1\sigma_n\\\ldots&\rho_{2n}\sigma_2\sigma_n\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}\sigma_1\sigma_n&\rho_{2n}\sigma_2\sigma_n\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&\sigma_n^2\\\end{matrix}\\\end{matrix}\right]
C=⎣⎢⎢⎢⎡c11c21c12c22⋮cn1⋮cn2……c1nc2n⋱…⋮cnn⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡σ12ρ12σ1σ2ρ12σ1σ2σ22⋮ρ1nσ1σn⋮ρ2nσ2σn……ρ1nσ1σnρ2nσ2σn⋱…⋮σn2⎦⎥⎥⎥⎤
=
[
σ
1
σ
2
⋱
σ
n
]
[
1
ρ
12
ρ
12
1
…
ρ
1
n
…
ρ
2
n
⋮
⋮
ρ
1
n
ρ
2
n
⋱
⋮
…
1
]
[
σ
1
σ
2
⋱
σ
n
]
=\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]
=⎣⎢⎢⎡σ1σ2⋱σn⎦⎥⎥⎤⎣⎢⎢⎢⎡1ρ12ρ121⋮ρ1n⋮ρ2n……ρ1nρ2n⋱…⋮1⎦⎥⎥⎥⎤⎣⎢⎢⎡σ1σ2⋱σn⎦⎥⎥⎤
根据逆矩阵运算规律
C
−
1
=
(
[
σ
1
σ
2
⋱
σ
n
]
[
1
ρ
12
ρ
12
1
…
ρ
1
n
…
ρ
2
n
⋮
⋮
ρ
1
n
ρ
2
n
⋱
⋮
…
1
]
[
σ
1
σ
2
⋱
σ
n
]
)
−
1
C^{-1}=\left(\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]\right)^{-1}
C−1=⎝⎜⎜⎜⎛⎣⎢⎢⎡σ1σ2⋱σn⎦⎥⎥⎤⎣⎢⎢⎢⎡1ρ12ρ121⋮ρ1n⋮ρ2n……ρ1nρ2n⋱…⋮1⎦⎥⎥⎥⎤⎣⎢⎢⎡σ1σ2⋱σn⎦⎥⎥⎤⎠⎟⎟⎟⎞−1
=
[
σ
1
σ
2
⋱
σ
n
]
−
1
[
1
ρ
12
ρ
12
1
…
ρ
1
n
…
ρ
2
n
⋮
⋮
ρ
1
n
ρ
2
n
⋱
⋮
…
1
]
−
1
[
σ
1
σ
2
⋱
σ
n
]
−
1
=\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]^{-1}\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]^{-1}
=⎣⎢⎢⎡σ1σ2⋱σn⎦⎥⎥⎤−1⎣⎢⎢⎢⎡1ρ12ρ121⋮ρ1n⋮ρ2n……ρ1nρ2n⋱…⋮1⎦⎥⎥⎥⎤−1⎣⎢⎢⎡σ1σ2⋱σn⎦⎥⎥⎤−1
=
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
n
]
[
1
ρ
12
ρ
12
1
…
ρ
1
n
…
ρ
2
n
⋮
⋮
ρ
1
n
ρ
2
n
⋱
⋮
…
1
]
−
1
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
n
]
=\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]
=⎣⎢⎢⎡1/σ11/σ2⋱1/σn⎦⎥⎥⎤⎣⎢⎢⎢⎡1ρ12ρ121⋮ρ1n⋮ρ2n……ρ1nρ2n⋱…⋮1⎦⎥⎥⎥⎤−1⎣⎢⎢⎡1/σ11/σ2⋱1/σn⎦⎥⎥⎤
即协方差矩阵
C
C
C可表示为方差与相关矩阵
R
R
R的关系。
则马氏距离也可以表示为 相关矩阵与标准化后变量的关系,如下:
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
\sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)}
(X−μ)TC−1(X−μ)
=
(
x
1
−
μ
1
x
2
−
μ
2
…
x
n
−
μ
n
)
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
n
]
[
1
ρ
12
ρ
12
1
…
ρ
1
n
…
ρ
2
n
⋮
⋮
ρ
1
n
ρ
2
n
⋱
⋮
…
1
]
−
1
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
n
]
(
x
1
−
μ
1
x
2
−
μ
2
⋮
x
n
−
μ
n
)
=\sqrt{\left(\begin{matrix}\begin{matrix}x_1-\mu_1&x_2-\mu_2\\\end{matrix}&\begin{matrix}\ldots&x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)}
=(x1−μ1x2−μ2…xn−μn)⎣⎢⎢⎡1/σ11/σ2⋱1/σn⎦⎥⎥⎤⎣⎢⎢⎢⎡1ρ12ρ121⋮ρ1n⋮ρ2n……ρ1nρ2n⋱…⋮1⎦⎥⎥⎥⎤−1⎣⎢⎢⎡1/σ11/σ2⋱1/σn⎦⎥⎥⎤⎝⎜⎜⎜⎛x1−μ1x2−μ2⋮xn−μn⎠⎟⎟⎟⎞
=
(
x
1
−
μ
1
σ
1
x
2
−
μ
2
σ
2
…
x
n
−
μ
n
σ
n
)
[
1
ρ
12
ρ
12
1
…
ρ
1
n
…
ρ
2
n
⋮
⋮
ρ
1
n
ρ
2
n
⋱
⋮
…
1
]
−
1
(
x
1
−
μ
1
σ
1
x
2
−
μ
2
σ
2
⋮
x
n
−
μ
n
σ
n
)
=\sqrt{\left(\begin{matrix}\begin{matrix}\frac{x_1-\mu_1}{\sigma_1}&\frac{x_2-\mu_2}{\sigma_2}\\\end{matrix}&\begin{matrix}\ldots&\frac{x_n-\mu_n}{\sigma_n}\\\end{matrix}\\\end{matrix}\right)\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left(\begin{matrix}\begin{matrix}\frac{x_1-\mu_1}{\sigma_1}\\\frac{x_2-\mu_2}{\sigma_2}\\\end{matrix}\\\begin{matrix}\vdots\\\frac{x_n-\mu_n}{\sigma_n}\\\end{matrix}\\\end{matrix}\right)}
=(σ1x1−μ1σ2x2−μ2…σnxn−μn)⎣⎢⎢⎢⎡1ρ12ρ121⋮ρ1n⋮ρ2n……ρ1nρ2n⋱…⋮1⎦⎥⎥⎥⎤−1⎝⎜⎜⎜⎛σ1x1−μ1σ2x2−μ2⋮σnxn−μn⎠⎟⎟⎟⎞
=
(
X
−
μ
σ
)
T
[
1
ρ
12
ρ
12
1
…
ρ
1
n
…
ρ
2
n
⋮
⋮
ρ
1
n
ρ
2
n
⋱
⋮
…
1
]
−
1
(
X
−
μ
σ
)
=\sqrt{\left(\frac{X-\mu}{\sigma}\right)^T\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left(\frac{X-\mu}{\sigma}\right)}
=(σX−μ)T⎣⎢⎢⎢⎡1ρ12ρ121⋮ρ1n⋮ρ2n……ρ1nρ2n⋱…⋮1⎦⎥⎥⎥⎤−1(σX−μ)
即马氏距离中偏差
(
X
−
μ
)
\left(X-\mu\right)
(X−μ)与协方差矩阵
C
C
C的计算,变为了标准化矩阵
(
X
−
μ
σ
)
\left(\frac{X-\mu}{\sigma}\right)
(σX−μ)与相关矩阵R的计算。
已知相关矩阵
R
=
[
1
ρ
12
ρ
12
1
…
ρ
1
n
…
ρ
2
n
⋮
⋮
ρ
1
n
ρ
2
n
⋱
⋮
…
1
]
R=\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]
R=⎣⎢⎢⎢⎡1ρ12ρ121⋮ρ1n⋮ρ2n……ρ1nρ2n⋱…⋮1⎦⎥⎥⎥⎤为对称矩阵,可知有正交矩阵
P
P
P,使
R
=
P
R
−
1
[
λ
1
R
λ
2
R
⋱
λ
n
R
]
P
R
,
(
λ
1
R
,
λ
2
R
,
λ
3
R
,
⋯
,
λ
n
R
)
R=P_R^{-1}\left[\begin{matrix}\begin{matrix}\lambda_{1R}&\\&\lambda_{2R}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\lambda_{nR}\\\end{matrix}\\\end{matrix}\right]P_R,\left(\lambda_{1R},\lambda_{2R},\lambda_{3R},\cdots,\lambda_{nR}\right)
R=PR−1⎣⎢⎢⎡λ1Rλ2R⋱λnR⎦⎥⎥⎤PR,(λ1R,λ2R,λ3R,⋯,λnR)是
R
R
R的
n
n
n个特征值.
继续马氏距离公式的变换,
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
\sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)}
(X−μ)TC−1(X−μ)
=
(
X
−
μ
σ
)
T
[
1
ρ
12
ρ
12
1
…
ρ
1
n
…
ρ
2
n
⋮
⋮
ρ
1
n
ρ
2
n
⋱
⋮
…
1
]
−
1
(
X
−
μ
σ
)
=\sqrt{\left(\frac{X-\mu}{\sigma}\right)^T\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left(\frac{X-\mu}{\sigma}\right)}
=(σX−μ)T⎣⎢⎢⎢⎡1ρ12ρ121⋮ρ1n⋮ρ2n……ρ1nρ2n⋱…⋮1⎦⎥⎥⎥⎤−1(σX−μ)
=
(
X
−
μ
σ
)
T
(
P
R
−
1
[
λ
1
R
λ
2
R
⋱
λ
n
R
]
P
R
)
−
1
(
X
−
μ
σ
)
=\sqrt{\left(\frac{X-\mu}{\sigma}\right)^T\left(P_R^{-1}\left[\begin{matrix}\begin{matrix}\lambda_{1R}&\\&\lambda_{2R}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\lambda_{nR}\\\end{matrix}\\\end{matrix}\right]P_R\right)^{-1}\left(\frac{X-\mu}{\sigma}\right)}
=(σX−μ)T⎝⎜⎜⎛PR−1⎣⎢⎢⎡λ1Rλ2R⋱λnR⎦⎥⎥⎤PR⎠⎟⎟⎞−1(σX−μ)
=
(
X
−
μ
σ
)
T
P
R
−
1
[
λ
1
R
λ
2
R
⋱
λ
n
R
]
−
1
P
R
(
X
−
μ
σ
)
=\sqrt{\left(\frac{X-\mu}{\sigma}\right)^TP_R^{-1}\left[\begin{matrix}\begin{matrix}\lambda_{1R}&\\&\lambda_{2R}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\lambda_{nR}\\\end{matrix}\\\end{matrix}\right]^{-1}P_R\left(\frac{X-\mu}{\sigma}\right)}
=(σX−μ)TPR−1⎣⎢⎢⎡λ1Rλ2R⋱λnR⎦⎥⎥⎤−1PR(σX−μ)
=
(
X
−
μ
σ
)
T
P
R
−
1
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
P
R
(
X
−
μ
σ
)
=\sqrt{\left(\frac{X-\mu}{\sigma}\right)^TP_R^{-1}\left[\begin{matrix}\begin{matrix}1/\lambda_{1R}&\\&1/\lambda_{2R}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\lambda_{nR}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right)}
=(σX−μ)TPR−1⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤PR(σX−μ)
=
(
X
−
μ
σ
)
T
P
R
T
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
T
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
P
R
(
X
−
μ
σ
)
=\sqrt{\left(\frac{X-\mu}{\sigma}\right)^TP_R^T\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]^T\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right)}
=(σX−μ)TPRT⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤T⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤PR(σX−μ)
=
(
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
P
R
(
X
−
μ
σ
)
)
T
(
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
P
R
(
X
−
μ
σ
)
)
=\sqrt{\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right)\right)^T\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right)\right)}
=⎝⎜⎜⎛⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤PR(σX−μ)⎠⎟⎟⎞T⎝⎜⎜⎛⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤PR(σX−μ)⎠⎟⎟⎞
=
(
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
P
R
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
n
]
(
x
1
−
μ
1
x
2
−
μ
2
⋮
x
n
−
μ
n
)
)
T
(
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
P
R
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
n
]
(
x
1
−
μ
1
x
2
−
μ
2
⋮
x
n
−
μ
n
)
)
=\sqrt{\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\right)^T\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\right)}
=⎝⎜⎜⎜⎛⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤PR⎣⎢⎢⎡1/σ11/σ2⋱1/σn⎦⎥⎥⎤⎝⎜⎜⎜⎛x1−μ1x2−μ2⋮xn−μn⎠⎟⎟⎟⎞⎠⎟⎟⎟⎞T⎝⎜⎜⎜⎛⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤PR⎣⎢⎢⎡1/σ11/σ2⋱1/σn⎦⎥⎥⎤⎝⎜⎜⎜⎛x1−μ1x2−μ2⋮xn−μn⎠⎟⎟⎟⎞⎠⎟⎟⎟⎞
观察
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
P
R
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
n
]
(
x
1
−
μ
1
x
2
−
μ
2
⋮
x
n
−
μ
n
)
\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)
⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤PR⎣⎢⎢⎡1/σ11/σ2⋱1/σn⎦⎥⎥⎤⎝⎜⎜⎜⎛x1−μ1x2−μ2⋮xn−μn⎠⎟⎟⎟⎞,可以看到
X
=
=
=
⇒
标
准
化
X
−
μ
σ
=
=
=
=
=
=
⇒
正
交
变
换
(
旋
转
)
P
R
(
X
−
μ
σ
)
=
=
=
=
⇒
缩
放
变
换
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
P
R
(
X
−
μ
σ
)
X\overset{标准化}{===\Rightarrow}\frac{X-\mu}{\sigma}\overset{正交变换(旋转)}{======\Rightarrow}P_R\left(\frac{X-\mu}{\sigma}\right)\overset{缩放变换}{====\Rightarrow}\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right)
X===⇒标准化σX−μ======⇒正交变换(旋转)PR(σX−μ)====⇒缩放变换⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤PR(σX−μ)
X X X标准化后,先经过正交变换,再经过缩放变换,才得到变换后的点。马氏距离即是求该点到中心 ( 0 , 0 ) \left(0,0\right) (0,0)的距离。
以上通过对公式的解读过程,分析了标准化后变量 X − μ σ \frac{X-\mu}{\sigma} σX−μ,相关矩阵与马氏距离的关系,
如果不需要求标准化的变量,可以直接用马氏距离公式求解。
已知协方差矩阵
C
C
C为对称矩阵,可知有正交矩阵
P
C
P_C
PC,使
C
=
P
C
−
1
[
λ
1
C
λ
2
C
⋱
λ
n
C
]
P
C
C=P_C^{-1}\left[\begin{matrix}\begin{matrix}\lambda_{1C}&\\&\lambda_{2C}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\lambda_{nC}\\\end{matrix}\\\end{matrix}\right]P_C
C=PC−1⎣⎢⎢⎡λ1Cλ2C⋱λnC⎦⎥⎥⎤PC,
(
λ
1
C
,
λ
2
C
,
λ
3
C
,
⋯
,
λ
n
C
)
\left(\lambda_{1C},\lambda_{2C},\lambda_{3C},\cdots,\lambda_{nC}\right)
(λ1C,λ2C,λ3C,⋯,λnC)是
C
C
C的
n
n
n个特征值.
则马氏距离公式可变为,
(
X
−
μ
)
T
C
−
1
(
X
−
μ
)
\sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)}
(X−μ)TC−1(X−μ)
=
(
[
1
/
λ
1
C
1
/
λ
2
C
⋱
1
/
λ
n
C
]
P
C
(
x
1
−
μ
1
x
2
−
μ
2
⋮
x
n
−
μ
n
)
)
T
(
[
1
/
λ
1
C
1
/
λ
2
C
⋱
1
/
λ
n
C
]
P
C
(
x
1
−
μ
1
x
2
−
μ
2
⋮
x
n
−
μ
n
)
)
=\sqrt{\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\right)^T\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\right)}
=⎝⎜⎜⎜⎛⎣⎢⎢⎡1/λ1C1/λ2C⋱1/λnC⎦⎥⎥⎤PC⎝⎜⎜⎜⎛x1−μ1x2−μ2⋮xn−μn⎠⎟⎟⎟⎞⎠⎟⎟⎟⎞T⎝⎜⎜⎜⎛⎣⎢⎢⎡1/λ1C1/λ2C⋱1/λnC⎦⎥⎥⎤PC⎝⎜⎜⎜⎛x1−μ1x2−μ2⋮xn−μn⎠⎟⎟⎟⎞⎠⎟⎟⎟⎞
观察
[
1
/
λ
1
C
1
/
λ
2
C
⋱
1
/
λ
n
C
]
P
C
(
x
1
−
μ
1
x
2
−
μ
2
⋮
x
n
−
μ
n
)
\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)
⎣⎢⎢⎡1/λ1C1/λ2C⋱1/λnC⎦⎥⎥⎤PC⎝⎜⎜⎜⎛x1−μ1x2−μ2⋮xn−μn⎠⎟⎟⎟⎞,可以看到
X
=
=
=
=
=
⇒
与
均
值
的
偏
差
X
−
μ
=
=
=
=
=
⇒
正
交
变
换
(
旋
转
)
P
C
(
X
−
μ
)
=
=
=
⇒
缩
放
变
换
[
1
/
λ
1
C
1
/
λ
2
C
⋱
1
/
λ
n
C
]
P
C
(
X
−
μ
)
X\overset{与均值的偏差}{=====\Rightarrow}X-\mu\overset{正交变换(旋转)}{=====\Rightarrow}P_C\left(X-\mu\right)\overset{缩放变换}{===\Rightarrow}\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C\left(X-\mu\right)
X=====⇒与均值的偏差X−μ=====⇒正交变换(旋转)PC(X−μ)===⇒缩放变换⎣⎢⎢⎡1/λ1C1/λ2C⋱1/λnC⎦⎥⎥⎤PC(X−μ)
用图像表示上述变换,
由
[
1
/
λ
1
R
1
/
λ
2
R
⋱
1
/
λ
n
R
]
P
R
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
n
]
=
[
1
/
λ
1
C
1
/
λ
2
C
⋱
1
/
λ
n
C
]
P
C
\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]=\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C
⎣⎢⎢⎡1/λ1R1/λ2R⋱1/λnR⎦⎥⎥⎤PR⎣⎢⎢⎡1/σ11/σ2⋱1/σn⎦⎥⎥⎤=⎣⎢⎢⎡1/λ1C1/λ2C⋱1/λnC⎦⎥⎥⎤PC可知,
P
C
P_C
PC对应的特征向量经过
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
n
]
\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]
⎣⎢⎢⎡1/σ11/σ2⋱1/σn⎦⎥⎥⎤缩放变换后,得到了
P
R
P_R
PR对应特征向量的角度。在此不做分析。
从马氏距离公式的分析中可以看到,协方差矩阵的逆矩阵中已经包含了对选取变量
(
X
1
,
X
2
,
X
3
,
⋯
,
X
n
)
\left(X_1,X_2,X_3,\cdots,X_n\right)
(X1,X2,X3,⋯,Xn)的标准化、旋转、缩放。故在计算马氏距离的过程中,无需求解旋转角度(即单位特征向量),缩放比例(特征值)。
在主成分分析和因子分析中,需要进一步求解协方差矩阵的逆矩阵中已经包含的旋转、缩放信息,即单位特征向量与特征值。主成分分析和因子分析在这里不做介绍。
参考资料:
- 概率论与数理统计(浙大第四版)
- 线性代数(同济第六版)