Mahalanobis马氏距离,正态随机变量,协方差矩阵与相关矩阵

正交矩阵与正交变换

如果n阶矩阵A满足 A T A = E A^TA=E ATA=E(即 A − 1 = A T A^{-1}=A^T A1=AT),那么称A为正交矩阵,简称正交阵。

对称矩阵的对角化

A A A n n n阶对称矩阵,则必有正交矩阵P,使 P − 1 A P = P T A P = Λ P^{-1}AP=P^TAP=\mathrm{\Lambda} P1AP=PTAP=Λ,其中 Λ \mathrm{\Lambda} Λ 是以 A A A n n n个特征值为对角元的对角矩阵。

为什么要求马氏距离?

在一个身高样本中,衡量其中的一个身高 l i l_{i} li,可以用与均值的距离 l i − u l l_{i}-u_{l} liul,即随机变量与其均值的偏离程度。如果将这个样本中所有变量标准化,随机变量与均值的距离为 l i − u l σ \frac{l_{i}-u_{l}}{σ} σliul。比较其中两个身高间的距离,我们可以用 l i − u l σ l − l j − u l σ l \frac{l_{i}-u_{l}}{σ_{l}}-\frac{l_{j}-u_{l}}{σ_{l}} σlliulσlljul。(标准化后的均值为0)

同理,在一个体重样本中,衡量其中的一个体重 m i m_i mi,可以用其标准化后的“距离” m i − μ m σ m \frac{m_i-\mu_m}{\sigma_m} σmmiμm

那么在一个(身高,体重) 二维样本中,一个单位是长度,一个单位是重量,该如何衡量随机变量 ( l i , m i ) \left(l_i,m_i\right) (li,mi)呢?是不是可以分别标准化以后,得到 ( l i − μ l σ l , m i − μ m σ m ) \left(\frac{l_i-\mu_l}{\sigma_l},\frac{m_i-\mu_m}{\sigma_m}\right) (σlliμl,σmmiμm),再按照 Δ L = x 2 + y 2 \mathrm{\Delta L}=\sqrt{x^2+y^2} ΔL=x2+y2 ,求这个点到中心 ( 0 , 0 ) \left(0,0\right) (0,0)的距离呢? 而对于两个随机变量 ( l i , m i ) \left(l_i,m_i\right) (li,mi) ( l j , m j ) \left(l_j,m_j\right) (lj,mj)的比较,是不是可以分别标准化以后,得到 ( l i − μ l σ l , m i − μ m σ m ) \left(\frac{l_i-\mu_l}{\sigma_l},\frac{m_i-\mu_m}{\sigma_m}\right) (σlliμl,σmmiμm) ( l j − μ l σ l , m j − μ m σ m ) \left(\frac{l_j-\mu_l}{\sigma_l},\frac{m_j-\mu_m}{\sigma_m}\right) (σlljμl,σmmjμm),再按照 Δ L = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 \mathrm{\Delta L}=\sqrt{\left(x_1-x_2\right)^2+\left(y_1-y_2\right)^2} ΔL=(x1x2)2+(y1y2)2 ,求这两个点之间的距离呢?

马氏距离定义(Baidu)

马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为 μ μ μ,协方差矩阵为 C C C的多变量向量,其马氏距离为 ( X − μ ) T C − 1 ( X − μ ) \sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)} (Xμ)TC1(Xμ)

正态随机变量与马氏距离

二维正态随机变量X1,X2的概率密度为
f ( x 1 , x 2 ) = 1 2 π σ 1 σ 2 1 − ρ 2 e x p { − 1 2 ( 1 − ρ 2 ) [ ( x 1 − μ 1 ) 2 σ 1 2 − 2 ρ ( x 1 − μ 1 ) ( x 2 − μ 2 ) σ 1 σ 2 + ( x 2 − μ 2 ) 2 σ 2 2 ] } f\left(x_1,x_2\right)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp\left\{\frac{-1}{2\left(1-\rho^2\right)}\left[\frac{\left(x_1-\mu_1\right)^2}{\sigma_1^2}-2\rho\frac{\left(x_1-\mu_1\right)\left(x_2-\mu_2\right)}{\sigma_1\sigma_2}+\frac{\left(x_2-\mu_2\right)^2}{\sigma_2^2}\right]\right\} f(x1,x2)=2πσ1σ21ρ2 1exp{2(1ρ2)1[σ12(x1μ1)22ρσ1σ2(x1μ1)(x2μ2)+σ22(x2μ2)2]}
将上式中花括号内的式子写成矩阵形式,为此引入下面的列矩阵
X = ( x 1 x 2 ) , μ = ( μ 1 μ 2 ) 。 X=\binom{x_1}{x_2},μ=\binom{μ_1}{μ_2}。 X=(x2x1),μ=(μ2μ1)
( X 1 , X 2 ) (X_1,X_2) (X1,X2)的协方差矩阵为
C = [ c 11 c 12 c 21 c 22 ] = [ σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ] C=\left[\begin{matrix}c_{11}&c_{12}\\c_{21}&c_{22}\\\end{matrix}\right]=\left[\begin{matrix}\sigma_1^2&\rho\sigma_1\sigma_2\\\rho\sigma_1\sigma_2&\sigma_2^2\\\end{matrix}\right] C=[c11c21c12c22]=[σ12ρσ1σ2ρσ1σ2σ22]
它的行列式 d e t   C = σ 1 σ 2 ( 1 − ρ 2 ) det\ {C}=\sigma_1\sigma_2\left(1-\rho^2\right) det C=σ1σ2(1ρ2) C C C的逆矩阵为
C − 1 = 1 d e t   C [ σ 2 2 − ρ σ 1 σ 2 − ρ σ 1 σ 2 σ 1 2 ] C^{-1}=\frac{1}{det\ {C}}\left[\begin{matrix}\sigma_2^2&-\rho\sigma_1\sigma_2\\-\rho\sigma_1\sigma_2&\sigma_1^2\\\end{matrix}\right] C1=det C1[σ22ρσ1σ2ρσ1σ2σ12]
经过计算可知
( X − μ ) T C − 1 ( X − μ ) = 1 d e t   C ( x 1 − μ 1 x 2 − μ 2 ) [ σ 2 2 − ρ σ 1 σ 2 − ρ σ 1 σ 2 σ 1 2 ] ( x 1 − μ 1 x 2 − μ 2 ) \left(X-\mu\right)^TC^{-1}\left(X-\mu\right)=\frac{1}{det\ {C}}\left(\begin{matrix}x_1-\mu_1&x_2-\mu_2\\\end{matrix}\right)\left[\begin{matrix}\sigma_2^2&-\rho\sigma_1\sigma_2\\-\rho\sigma_1\sigma_2&\sigma_1^2\\\end{matrix}\right]\binom{x_1-μ_1}{x_2-μ_2} (Xμ)TC1(Xμ)=det C1(x1μ1x2μ2)[σ22ρσ1σ2ρσ1σ2σ12](x2μ2x1μ1)
= 1 1 − ρ 2 [ ( x 1 − μ 1 ) 2 σ 1 2 − 2 ρ ( x 1 − μ 1 ) ( x 2 − μ 2 ) σ 1 σ 2 + ( x 2 − μ 2 ) 2 σ 2 2 ] =\frac{1}{1-\rho^2}\left[\frac{\left(x_1-\mu_1\right)^2}{\sigma_1^2}-2\rho\frac{\left(x_1-\mu_1\right)\left(x_2-\mu_2\right)}{\sigma_1\sigma_2}+\frac{\left(x_2-\mu_2\right)^2}{\sigma_2^2}\right] =1ρ21[σ12(x1μ1)22ρσ1σ2(x1μ1)(x2μ2)+σ22(x2μ2)2]
于是 ( X 1 , X 2 ) (X_1,X_2) (X1,X2)的概率密度可写成
f ( x 1 , x 2 ) = 1 2 π 2 / 2 d e t   C 1 / 2 e x p { − 1 2 ( X − μ ) T C − 1 ( X − μ ) } f\left(x_1,x_2\right)=\frac{1}{{2\pi}^{2/2}{det\ {C}}^{1/2}}exp\left\{-\frac{1}{2}\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)\right\} f(x1,x2)=2π2/2det C1/21exp{21(Xμ)TC1(Xμ)}
上式容易推广到 n n n维正态随机变量 ( X 1 , X 2 , X 3 , ⋯   , X n ) \left(X_1,X_2,X_3,\cdots,X_n\right) (X1,X2,X3,,Xn)的情况。
引入矩阵
X = [ x 1 x 2 ⋮ x n ] 和 u = [ μ 1 μ 2 ⋮ μ n ] = [ E ( X 1 ) E ( X 2 ) ⋮ E ( X n ) ] X=\begin{bmatrix}x_1\\ x_2\\ ⋮\\ x_n\end{bmatrix}和u=\begin{bmatrix}μ_1\\ μ_2\\ ⋮\\ μ_n\end{bmatrix}=\begin{bmatrix}E\left(X_1\right)\\ E\left(X_2\right)\\ ⋮\\ E\left(X_n\right)\end{bmatrix} X=x1x2xnu=μ1μ2μn=E(X1)E(X2)E(Xn)
n n n维正态随机变量 ( X 1 , X 2 , X 3 , ⋯   , X n ) \left(X_1,X_2,X_3,\cdots,X_n\right) (X1,X2,X3,,Xn)的概率密度定义为
f ( x 1 , x 2 , ⋯   , x n ) = 1 2 π n / 2 d e t   C 1 / 2 e x p { − 1 2 ( X − μ ) T C − 1 ( X − μ ) } f\left(x_1,x_2,\cdots,x_n\right)=\frac{1}{{2\pi}^{n/2}{det\ {C}}^{1/2}}exp\left\{-\frac{1}{2}\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)\right\} f(x1,x2,,xn)=2πn/2det C1/21exp{21(Xμ)TC1(Xμ)}
其中 C C C ( X 1 , X 2 , X 3 , ⋯   , X n ) \left(X_1,X_2,X_3,\cdots,X_n\right) (X1,X2,X3,,Xn)的协方差矩阵。
比较马氏距离定义中的 ( X − μ ) T C − 1 ( X − μ ) \sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)} (Xμ)TC1(Xμ) n n n维正态随机变量的概率密度定义,可以看出,都包含了 ( X − μ ) T C − 1 ( X − μ ) \left(X-\mu\right)^TC^{-1}\left(X-\mu\right) (Xμ)TC1(Xμ)

公式解读

X 1 X_{1} X1 X 2 X_{2} X2相互独立 ( ρ = 0 ) ({\rho}={0}) (ρ=0)

二维正态随机变量 ( X 1 , X 2 ) \left(X_1,X_2\right) (X1,X2),如果 X 1 X_1 X1 X 2 X_2 X2相互独立(即不相关),即 ρ = 0 \rho=0 ρ=0,则
C = [ c 11 c 12 c 21 c 22 ] = [ σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ] = [ σ 1 2 σ 2 2 ] C=\left[\begin{matrix}c_{11}&c_{12}\\c_{21}&c_{22}\\\end{matrix}\right]=\left[\begin{matrix}\sigma_1^2&\rho\sigma_1\sigma_2\\\rho\sigma_1\sigma_2&\sigma_2^2\\\end{matrix}\right]=\left[\begin{matrix}\sigma_1^2&\\&\sigma_2^2\\\end{matrix}\right] C=[c11c21c12c22]=[σ12ρσ1σ2ρσ1σ2σ22]=[σ12σ22]
C − 1 = 1 d e t   C [ σ 2 2 − ρ σ 1 σ 2 − ρ σ 1 σ 2 σ 1 2 ] = [ 1 / σ 1 2 1 / σ 2 2 ] C^{-1}=\frac{1}{det\ {C}}\left[\begin{matrix}\sigma_2^2&-\rho\sigma_1\sigma_2\\-\rho\sigma_1\sigma_2&\sigma_1^2\\\end{matrix}\right]=\left[\begin{matrix}1/\sigma_1^2&\\&1/\sigma_2^2\\\end{matrix}\right] C1=det C1[σ22ρσ1σ2ρσ1σ2σ12]=[1/σ121/σ22]
( X − μ ) T C − 1 ( X − μ ) = ( x 1 − μ 1 x 2 − μ 2 ) [ 1 / σ 1 2 1 / σ 1 2 ] ( x 1 − μ 1 x 2 − μ 2 ) \left(X-\mu\right)^TC^{-1}\left(X-\mu\right)=\left(\begin{matrix}x_1-\mu_1&x_2-\mu_2\\\end{matrix}\right)\left[\begin{matrix}1/\sigma_1^2&\\&1/\sigma_1^2\\\end{matrix}\right]\binom{x_1-μ_1}{x_2-μ_2} (Xμ)TC1(Xμ)=(x1μ1x2μ2)[1/σ121/σ12](x2μ2x1μ1)
= ( x 1 − μ 1 σ 1 x 2 − μ 2 σ 2 ) ( x 1 − μ 1 σ 1 x 2 − μ 2 σ 2 ) =\left(\begin{matrix}\frac{x_1-\mu_1}{\sigma_1}&\frac{x_2-\mu_2}{\sigma_2}\\\end{matrix}\right)\binom{\frac{x_1-\mu_1}{\sigma_1}}{\frac{x_2-\mu_2}{\sigma_2}} =(σ1x1μ1σ2x2μ2)(σ2x2μ2σ1x1μ1)
= ( x 1 − μ 1 σ 1 ) 2 + ( x 2 − μ 2 σ 2 ) 2 =\left(\frac{x_1-\mu_1}{\sigma_1}\right)^2+\left(\frac{x_2-\mu_2}{\sigma_2}\right)^2 =(σ1x1μ1)2+(σ2x2μ2)2
根据马氏距离定义,
( X − μ ) T C − 1 ( X − μ ) = ( x 1 − μ 1 σ 1 ) 2 + ( x 2 − μ 2 σ 2 ) 2 \sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)}=\sqrt{\left(\frac{x_1-\mu_1}{\sigma_1}\right)^2+\left(\frac{x_2-\mu_2}{\sigma_2}\right)^2} (Xμ)TC1(Xμ) =(σ1x1μ1)2+(σ2x2μ2)2
显然, x 1 − μ 1 σ 1 、 x 2 − μ 2 σ 2 \frac{x_1-\mu_1}{\sigma_1}、\frac{x_2-\mu_2}{\sigma_2} σ1x1μ1σ2x2μ2都是标准化后的变量,马氏距离为点 ( X 1 , X 2 ) \left(X_1,X_2\right) (X1,X2)标准化后到中心 ( 0 , 0 ) \left(0,0\right) (0,0)的距离。
这样,是不是就符合我们前面衡量一个(身高,体重),猜想的方法呢?
事实是,现实中,身高与体重并不是毫不相关的,即相关系数 ρ ≠ 0 \rho\neq0 ρ=0
那么,当 X 1 X_1 X1 X 2 X_2 X2相关(并不独立)时,如何衡量一个(身高,体重)呢?如何理解 ( X − μ ) T C − 1 ( X − μ ) \sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)} (Xμ)TC1(Xμ) 呢?

X 1 X_{1} X1 X 2 X_{2} X2相关 ( ρ ≠ 0 ) ({\rho}≠{0}) (ρ=0)

二维正态随机变量(略)。
对多维正态随机变量,
C = [ c 11 c 12 c 21 c 22 … c 1 n … c 2 n ⋮ ⋮ c n 1 c n 2 ⋱ ⋮ … c n n ] = [ σ 1 2 ρ 12 σ 1 σ 2 ρ 12 σ 1 σ 2 σ 2 2 … ρ 1 n σ 1 σ n … ρ 2 n σ 2 σ n ⋮ ⋮ ρ 1 n σ 1 σ n ρ 2 n σ 2 σ n ⋱ ⋮ … σ n 2 ] C=\left[\begin{matrix}\begin{matrix}c_{11}&c_{12}\\c_{21}&c_{22}\\\end{matrix}&\begin{matrix}\ldots&c_{1n}\\\ldots&c_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\c_{n1}&c_{n2}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&c_{nn}\\\end{matrix}\\\end{matrix}\right]=\left[\begin{matrix}\begin{matrix}\sigma_1^2&\rho_{12}\sigma_1\sigma_2\\\rho_{12}\sigma_1\sigma_2&\sigma_2^2\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\sigma_1\sigma_n\\\ldots&\rho_{2n}\sigma_2\sigma_n\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}\sigma_1\sigma_n&\rho_{2n}\sigma_2\sigma_n\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&\sigma_n^2\\\end{matrix}\\\end{matrix}\right] C=c11c21c12c22cn1cn2c1nc2ncnn=σ12ρ12σ1σ2ρ12σ1σ2σ22ρ1nσ1σnρ2nσ2σnρ1nσ1σnρ2nσ2σnσn2
= [ σ 1 σ 2 ⋱ σ n ] [ 1 ρ 12 ρ 12 1 … ρ 1 n … ρ 2 n ⋮ ⋮ ρ 1 n ρ 2 n ⋱ ⋮ … 1 ] [ σ 1 σ 2 ⋱ σ n ] =\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right] =σ1σ2σn1ρ12ρ121ρ1nρ2nρ1nρ2n1σ1σ2σn

根据逆矩阵运算规律
C − 1 = ( [ σ 1 σ 2 ⋱ σ n ] [ 1 ρ 12 ρ 12 1 … ρ 1 n … ρ 2 n ⋮ ⋮ ρ 1 n ρ 2 n ⋱ ⋮ … 1 ] [ σ 1 σ 2 ⋱ σ n ] ) − 1 C^{-1}=\left(\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]\right)^{-1} C1=σ1σ2σn1ρ12ρ121ρ1nρ2nρ1nρ2n1σ1σ2σn1
= [ σ 1 σ 2 ⋱ σ n ] − 1 [ 1 ρ 12 ρ 12 1 … ρ 1 n … ρ 2 n ⋮ ⋮ ρ 1 n ρ 2 n ⋱ ⋮ … 1 ] − 1 [ σ 1 σ 2 ⋱ σ n ] − 1 =\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]^{-1}\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left[\begin{matrix}\begin{matrix}\sigma_1&\\&\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\sigma_n\\\end{matrix}\\\end{matrix}\right]^{-1} =σ1σ2σn11ρ12ρ121ρ1nρ2nρ1nρ2n11σ1σ2σn1
= [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ n ] [ 1 ρ 12 ρ 12 1 … ρ 1 n … ρ 2 n ⋮ ⋮ ρ 1 n ρ 2 n ⋱ ⋮ … 1 ] − 1 [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ n ] =\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right] =1/σ11/σ21/σn1ρ12ρ121ρ1nρ2nρ1nρ2n111/σ11/σ21/σn
即协方差矩阵 C C C可表示为方差与相关矩阵 R R R的关系。

则马氏距离也可以表示为 相关矩阵与标准化后变量的关系,如下:
( X − μ ) T C − 1 ( X − μ ) \sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)} (Xμ)TC1(Xμ)
= ( x 1 − μ 1 x 2 − μ 2 … x n − μ n ) [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ n ] [ 1 ρ 12 ρ 12 1 … ρ 1 n … ρ 2 n ⋮ ⋮ ρ 1 n ρ 2 n ⋱ ⋮ … 1 ] − 1 [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ n ] ( x 1 − μ 1 x 2 − μ 2 ⋮ x n − μ n ) =\sqrt{\left(\begin{matrix}\begin{matrix}x_1-\mu_1&x_2-\mu_2\\\end{matrix}&\begin{matrix}\ldots&x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)} =(x1μ1x2μ2xnμn)1/σ11/σ21/σn1ρ12ρ121ρ1nρ2nρ1nρ2n111/σ11/σ21/σnx1μ1x2μ2xnμn
= ( x 1 − μ 1 σ 1 x 2 − μ 2 σ 2 … x n − μ n σ n ) [ 1 ρ 12 ρ 12 1 … ρ 1 n … ρ 2 n ⋮ ⋮ ρ 1 n ρ 2 n ⋱ ⋮ … 1 ] − 1 ( x 1 − μ 1 σ 1 x 2 − μ 2 σ 2 ⋮ x n − μ n σ n ) =\sqrt{\left(\begin{matrix}\begin{matrix}\frac{x_1-\mu_1}{\sigma_1}&\frac{x_2-\mu_2}{\sigma_2}\\\end{matrix}&\begin{matrix}\ldots&\frac{x_n-\mu_n}{\sigma_n}\\\end{matrix}\\\end{matrix}\right)\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left(\begin{matrix}\begin{matrix}\frac{x_1-\mu_1}{\sigma_1}\\\frac{x_2-\mu_2}{\sigma_2}\\\end{matrix}\\\begin{matrix}\vdots\\\frac{x_n-\mu_n}{\sigma_n}\\\end{matrix}\\\end{matrix}\right)} =(σ1x1μ1σ2x2μ2σnxnμn)1ρ12ρ121ρ1nρ2nρ1nρ2n11σ1x1μ1σ2x2μ2σnxnμn
= ( X − μ σ ) T [ 1 ρ 12 ρ 12 1 … ρ 1 n … ρ 2 n ⋮ ⋮ ρ 1 n ρ 2 n ⋱ ⋮ … 1 ] − 1 ( X − μ σ ) =\sqrt{\left(\frac{X-\mu}{\sigma}\right)^T\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left(\frac{X-\mu}{\sigma}\right)} =(σXμ)T1ρ12ρ121ρ1nρ2nρ1nρ2n11(σXμ)

即马氏距离中偏差 ( X − μ ) \left(X-\mu\right) (Xμ)与协方差矩阵 C C C的计算,变为了标准化矩阵 ( X − μ σ ) \left(\frac{X-\mu}{\sigma}\right) (σXμ)与相关矩阵R的计算。
已知相关矩阵 R = [ 1 ρ 12 ρ 12 1 … ρ 1 n … ρ 2 n ⋮ ⋮ ρ 1 n ρ 2 n ⋱ ⋮ … 1 ] R=\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right] R=1ρ12ρ121ρ1nρ2nρ1nρ2n1为对称矩阵,可知有正交矩阵 P P P,使 R = P R − 1 [ λ 1 R λ 2 R ⋱ λ n R ] P R , ( λ 1 R , λ 2 R , λ 3 R , ⋯   , λ n R ) R=P_R^{-1}\left[\begin{matrix}\begin{matrix}\lambda_{1R}&\\&\lambda_{2R}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\lambda_{nR}\\\end{matrix}\\\end{matrix}\right]P_R,\left(\lambda_{1R},\lambda_{2R},\lambda_{3R},\cdots,\lambda_{nR}\right) R=PR1λ1Rλ2RλnRPR(λ1R,λ2R,λ3R,,λnR) R R R n n n个特征值.

继续马氏距离公式的变换,
( X − μ ) T C − 1 ( X − μ ) \sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)} (Xμ)TC1(Xμ)
= ( X − μ σ ) T [ 1 ρ 12 ρ 12 1 … ρ 1 n … ρ 2 n ⋮ ⋮ ρ 1 n ρ 2 n ⋱ ⋮ … 1 ] − 1 ( X − μ σ ) =\sqrt{\left(\frac{X-\mu}{\sigma}\right)^T\left[\begin{matrix}\begin{matrix}1&\rho_{12}\\\rho_{12}&1\\\end{matrix}&\begin{matrix}\ldots&\rho_{1n}\\\ldots&\rho_{2n}\\\end{matrix}\\\begin{matrix}\vdots&\vdots\\\rho_{1n}&\rho_{2n}\\\end{matrix}&\begin{matrix}\ddots&\vdots\\\ldots&1\\\end{matrix}\\\end{matrix}\right]^{-1}\left(\frac{X-\mu}{\sigma}\right)} =(σXμ)T1ρ12ρ121ρ1nρ2nρ1nρ2n11(σXμ)
= ( X − μ σ ) T ( P R − 1 [ λ 1 R λ 2 R ⋱ λ n R ] P R ) − 1 ( X − μ σ ) =\sqrt{\left(\frac{X-\mu}{\sigma}\right)^T\left(P_R^{-1}\left[\begin{matrix}\begin{matrix}\lambda_{1R}&\\&\lambda_{2R}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\lambda_{nR}\\\end{matrix}\\\end{matrix}\right]P_R\right)^{-1}\left(\frac{X-\mu}{\sigma}\right)} =(σXμ)TPR1λ1Rλ2RλnRPR1(σXμ)
= ( X − μ σ ) T P R − 1 [ λ 1 R λ 2 R ⋱ λ n R ] − 1 P R ( X − μ σ ) =\sqrt{\left(\frac{X-\mu}{\sigma}\right)^TP_R^{-1}\left[\begin{matrix}\begin{matrix}\lambda_{1R}&\\&\lambda_{2R}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\lambda_{nR}\\\end{matrix}\\\end{matrix}\right]^{-1}P_R\left(\frac{X-\mu}{\sigma}\right)} =(σXμ)TPR1λ1Rλ2RλnR1PR(σXμ)
= ( X − μ σ ) T P R − 1 [ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] P R ( X − μ σ ) =\sqrt{\left(\frac{X-\mu}{\sigma}\right)^TP_R^{-1}\left[\begin{matrix}\begin{matrix}1/\lambda_{1R}&\\&1/\lambda_{2R}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\lambda_{nR}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right)} =(σXμ)TPR11/λ1R1/λ2R1/λnRPR(σXμ)
= ( X − μ σ ) T P R T [ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] T [ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] P R ( X − μ σ ) =\sqrt{\left(\frac{X-\mu}{\sigma}\right)^TP_R^T\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]^T\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right)} =(σXμ)TPRT1/λ1R 1/λ2R 1/λnR T1/λ1R 1/λ2R 1/λnR PR(σXμ)
= ( [ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] P R ( X − μ σ ) ) T ( [ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] P R ( X − μ σ ) ) =\sqrt{\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right)\right)^T\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right)\right)} =1/λ1R 1/λ2R 1/λnR PR(σXμ)T1/λ1R 1/λ2R 1/λnR PR(σXμ)
= ( [ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] P R [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ n ] ( x 1 − μ 1 x 2 − μ 2 ⋮ x n − μ n ) ) T ( [ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] P R [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ n ] ( x 1 − μ 1 x 2 − μ 2 ⋮ x n − μ n ) ) =\sqrt{\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\right)^T\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\right)} =1/λ1R 1/λ2R 1/λnR PR1/σ11/σ21/σnx1μ1x2μ2xnμnT1/λ1R 1/λ2R 1/λnR PR1/σ11/σ21/σnx1μ1x2μ2xnμn

观察 [ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] P R [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ n ] ( x 1 − μ 1 x 2 − μ 2 ⋮ x n − μ n ) \left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right) 1/λ1R 1/λ2R 1/λnR PR1/σ11/σ21/σnx1μ1x2μ2xnμn,可以看到
X = = = ⇒ 标 准 化 X − μ σ = = = = = = ⇒ 正 交 变 换 ( 旋 转 ) P R ( X − μ σ ) = = = = ⇒ 缩 放 变 换 [ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] P R ( X − μ σ ) X\overset{标准化}{===\Rightarrow}\frac{X-\mu}{\sigma}\overset{正交变换(旋转)}{======\Rightarrow}P_R\left(\frac{X-\mu}{\sigma}\right)\overset{缩放变换}{====\Rightarrow}\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left(\frac{X-\mu}{\sigma}\right) X===⇒σXμ======⇒()PR(σXμ)====⇒1/λ1R 1/λ2R 1/λnR PR(σXμ)

X X X标准化后,先经过正交变换,再经过缩放变换,才得到变换后的点。马氏距离即是求该点到中心 ( 0 , 0 ) \left(0,0\right) (0,0)的距离。

以上通过对公式的解读过程,分析了标准化后变量 X − μ σ \frac{X-\mu}{\sigma} σXμ,相关矩阵与马氏距离的关系,

如果不需要求标准化的变量,可以直接用马氏距离公式求解。
已知协方差矩阵 C C C为对称矩阵,可知有正交矩阵 P C P_C PC,使 C = P C − 1 [ λ 1 C λ 2 C ⋱ λ n C ] P C C=P_C^{-1}\left[\begin{matrix}\begin{matrix}\lambda_{1C}&\\&\lambda_{2C}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&\lambda_{nC}\\\end{matrix}\\\end{matrix}\right]P_C C=PC1λ1Cλ2CλnCPC ( λ 1 C , λ 2 C , λ 3 C , ⋯   , λ n C ) \left(\lambda_{1C},\lambda_{2C},\lambda_{3C},\cdots,\lambda_{nC}\right) (λ1C,λ2C,λ3C,,λnC) C C C n n n个特征值.
则马氏距离公式可变为,
( X − μ ) T C − 1 ( X − μ ) \sqrt{\left(X-\mu\right)^TC^{-1}\left(X-\mu\right)} (Xμ)TC1(Xμ)
= ( [ 1 / λ 1 C 1 / λ 2 C ⋱ 1 / λ n C ] P C ( x 1 − μ 1 x 2 − μ 2 ⋮ x n − μ n ) ) T ( [ 1 / λ 1 C 1 / λ 2 C ⋱ 1 / λ n C ] P C ( x 1 − μ 1 x 2 − μ 2 ⋮ x n − μ n ) ) =\sqrt{\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\right)^T\left(\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right)\right)} =1/λ1C 1/λ2C 1/λnC PCx1μ1x2μ2xnμnT1/λ1C 1/λ2C 1/λnC PCx1μ1x2μ2xnμn

观察 [ 1 / λ 1 C 1 / λ 2 C ⋱ 1 / λ n C ] P C ( x 1 − μ 1 x 2 − μ 2 ⋮ x n − μ n ) \left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C\left(\begin{matrix}\begin{matrix}x_1-\mu_1\\x_2-\mu_2\\\end{matrix}\\\begin{matrix}\vdots\\x_n-\mu_n\\\end{matrix}\\\end{matrix}\right) 1/λ1C 1/λ2C 1/λnC PCx1μ1x2μ2xnμn,可以看到
X = = = = = ⇒ 与 均 值 的 偏 差 X − μ = = = = = ⇒ 正 交 变 换 ( 旋 转 ) P C ( X − μ ) = = = ⇒ 缩 放 变 换 [ 1 / λ 1 C 1 / λ 2 C ⋱ 1 / λ n C ] P C ( X − μ ) X\overset{与均值的偏差}{=====\Rightarrow}X-\mu\overset{正交变换(旋转)}{=====\Rightarrow}P_C\left(X-\mu\right)\overset{缩放变换}{===\Rightarrow}\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C\left(X-\mu\right) X=====⇒Xμ=====⇒()PC(Xμ)===⇒1/λ1C 1/λ2C 1/λnC PC(Xμ)

用图像表示上述变换,
马氏距离转换

[ 1 / λ 1 R 1 / λ 2 R ⋱ 1 / λ n R ] P R [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ n ] = [ 1 / λ 1 C 1 / λ 2 C ⋱ 1 / λ n C ] P C \left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1R}}&\\&1/\sqrt{\lambda_{2R}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nR}}\\\end{matrix}\\\end{matrix}\right]P_R\left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right]=\left[\begin{matrix}\begin{matrix}1/\sqrt{\lambda_{1C}}&\\&1/\sqrt{\lambda_{2C}}\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sqrt{\lambda_{nC}}\\\end{matrix}\\\end{matrix}\right]P_C 1/λ1R 1/λ2R 1/λnR PR1/σ11/σ21/σn=1/λ1C 1/λ2C 1/λnC PC可知, P C P_C PC对应的特征向量经过 [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ n ] \left[\begin{matrix}\begin{matrix}1/\sigma_1&\\&1/\sigma_2\\\end{matrix}&\\&\begin{matrix}\ddots&\\&1/\sigma_n\\\end{matrix}\\\end{matrix}\right] 1/σ11/σ21/σn缩放变换后,得到了 P R P_R PR对应特征向量的角度。在此不做分析。
标准化前后主轴角度发生变化

从马氏距离公式的分析中可以看到,协方差矩阵的逆矩阵中已经包含了对选取变量 ( X 1 , X 2 , X 3 , ⋯   , X n ) \left(X_1,X_2,X_3,\cdots,X_n\right) (X1,X2,X3,,Xn)的标准化、旋转、缩放。故在计算马氏距离的过程中,无需求解旋转角度(即单位特征向量),缩放比例(特征值)。
主成分分析因子分析中,需要进一步求解协方差矩阵的逆矩阵中已经包含的旋转、缩放信息,即单位特征向量与特征值。主成分分析因子分析在这里不做介绍。

参考资料:

  1. 概率论与数理统计(浙大第四版)
  2. 线性代数(同济第六版)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值