协方差矩阵与多元正态分布

协方差矩阵

协方差

在统计学中,方差用来度量单个随机变量的离散程度,而协方差用来刻画两个随机变量的相似程度,方差的计算公式
σ x 2 = 1 n − 1 ∑ i n ( x i − x ˉ ) \sigma_x^2=\cfrac{1}{n-1}\sum\limits_i^n(x_i-\bar{x}) σx2=n11in(xixˉ)
其中 n n n 表示样本数, x ˉ \bar{x} xˉ 表示观测样本的均值。
协方差的计算公式定义为:
σ ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \sigma(x,y)=\cfrac{1}{n-1}\sum\limits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) σ(x,y)=n11i=1n(xixˉ)(yiyˉ)
在公式中, x ˉ , y ˉ \bar{x},\bar{y} xˉ,yˉ分别表示两个随机变量对应的观测样本均值。
可以发现:

方差 σ x 2 \sigma_x^2 σx2 可视作随机变量 x x x 关于自身的协方差。

协方差矩阵

给定一个 d d d维随机向量 x = ( x 1 , x 2 , ⋯   , x d ) x=(x_1,x_2,\cdots,x_d) x=(x1,x2,,xd),则
σ ( x m , x k ) = 1 n − 1 ∑ i = 1 n ( x m i − x ˉ m ) ( x k i − x ˉ k ) \sigma(x_m,x_k)=\cfrac{1}{n-1}\sum\limits_{i=1}^n(x_{mi}-\bar{x}_m)(x_{ki}-\bar{x}_k) σ(xm,xk)=n11i=1n(xmixˉm)(xkixˉk)
协方差矩阵为:
Σ = [ σ ( x 1 , x 1 ) ⋯ σ ( x 1 , x d ) ⋮ ⋱ ⋮ σ ( x d , x 1 ) ⋯ σ ( x d , x d ) ] \Sigma= \begin{bmatrix} \sigma(x_1,x_1) & \cdots & \sigma(x_1,x_d) \\ \vdots & \ddots & \vdots\\ \sigma(x_d,x_1) & \cdots & \sigma(x_d,x_d) \end{bmatrix} Σ=σ(x1,x1)σ(xd,x1)σ(x1,xd)σ(xd,xd)
根据上述协方差矩阵的定义,矩阵 Σ \Sigma Σ为对称矩阵(symmetric matrix),其大小为 d × d d\times d d×d

多元正态分布

假设一个向量 x x x服从均值向量为 μ \mu μ的均值向量、协方差矩阵为 Σ \Sigma Σ的多元正态分布(multi-variable Gaussian distribution),则
p ( x ) = ∣ 2 π Σ ∣ − 1 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x)=\vert{2\pi\Sigma}\rvert^{-\frac{1}{2}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) p(x)=2πΣ21exp(21(xμ)TΣ1(xμ))

令均值向量 μ = 0 \mu=0 μ=0,指数前的系数 ∣ 2 π Σ ∣ − 1 2 \vert{2\pi\Sigma}\rvert^{-\frac{1}{2}} 2πΣ21为常数项,所以有
p ( x ) ∝ exp ⁡ ( − 1 2 x T Σ − 1 x ) p(x)\propto \exp(-\frac{1}{2}x^T\Sigma^{-1}x) p(x)exp(21xTΣ1x)

x x x为二维随机向量 x = ( x 1 , x 2 ) x=(x_1,x_2) x=(x1,x2),其协方差矩阵为单位矩阵 I 2 I_2 I2,则 x 1 x_1 x1 x 2 x_2 x2的方差均为1,生成的散点图如下:
在这里插入图片描述

对于每个随机数,似然为:
L ∝ exp ⁡ ( − 1 2 x T x ) \mathcal{L}\propto\exp(-\cfrac{1}{2}x^Tx) Lexp(21xTx)
对图1的点进行一个线性变换: t = A x t=Ax t=Ax,得到图2:
在这里插入图片描述
在上述变换中,矩阵 A A A称为变换矩阵(transformation matrix),将变换矩阵分解为两个矩阵。
尺度矩阵(scaling matrix):
S = [ s 1 0 0 s 2 ] = [ 1 0 0 1 2 ] S=\begin{bmatrix}s_1 & 0 \\ 0 & s_2\end{bmatrix}=\begin{bmatrix}1 & 0 \\ 0 & \frac{1}{2}\end{bmatrix} S=[s100s2]=[10021]
旋转矩阵(rotation matrix):
R = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] = [ cos ⁡ π 6 − sin ⁡ π 6 sin ⁡ π 6 cos ⁡ π 6 ] = [ 3 2 − 1 2 1 2 3 2 ] R=\begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix}=\begin{bmatrix} \cos{\frac{\pi}{6}} & -\sin{\frac{\pi}{6}} \\ \sin{\frac{\pi}{6}} & \cos{\frac{\pi}{6}} \end{bmatrix}=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} &\frac{\sqrt{3}}{2} \end{bmatrix} R=[cosθsinθsinθcosθ]=[cos6πsin6πsin6πcos6π]=[23 212123 ]

其中 θ \theta θ为逆时针旋转的度数。

变换矩阵、尺度矩阵和旋转矩阵的关系: A = R S A=RS A=RS

A = R S = [ 3 2 − 1 4 1 2 3 4 ] A=RS=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{4} \\ \frac{1}{2} &\frac{\sqrt{3}}{4} \end{bmatrix} A=RS=[23 214143 ]

经过线性变换 t = A x t=Ax t=Ax t t t的分布:
x = A − 1 t x=A^{-1}t x=A1t 带入似然 L ( x ) \mathcal{L}(x) L(x)
L ∝ exp ⁡ ( − 1 2 ( A − 1 t ) T ( A − 1 t ) ) = exp ⁡ ( − 1 2 t T ( A T A ) − 1 t ) \mathcal{L}\propto\exp(-\cfrac{1}{2}(A^{-1}t)^T(A^{-1}t))\\ =\exp(-\cfrac{1}{2}t^T(A^TA)^{-1}t) Lexp(21(A1t)T(A1t))=exp(21tT(ATA)1t)
可得,多元正态分布的协方差矩阵:
Σ = A A T = [ 13 16 3 3 16 3 3 16 7 16 ] \Sigma=AA^T=\begin{bmatrix} \frac{13}{16} & \frac{3\sqrt{3}}{16} \\ \frac{3\sqrt{3}}{16} &\frac{7}{16} \end{bmatrix} Σ=AAT=[16131633 1633 167]

协方差矩阵的特征值分解

对于实对称矩阵 Σ \Sigma Σ,必相似于对角矩阵,即存在可逆矩阵P,满足:
Σ = P Λ P T \Sigma=P\Lambda P^T Σ=PΛPT
P P P的每一列为相互正交的特征向量, Λ \Lambda Λ为对角矩阵,特征值从大到小排列。

上述对称矩阵的分解可得:
Σ = ( P Λ 1 / 2 ) ( P Λ 1 / 2 ) T = A A T = ( R S ) ( R S ) T \Sigma=(P\Lambda^{1/2})(P\Lambda^{1/2})^T=AA^T=(RS)(RS)^T Σ=(PΛ1/2)(PΛ1/2)T=AAT=(RS)(RS)T
可得:
P = R = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] = [ 3 2 − 1 2 1 2 3 2 ] P=R=\begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix}=\begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} &\frac{\sqrt{3}}{2} \end{bmatrix} P=R=[cosθsinθsinθcosθ]=[23 212123 ]
Λ = S S T = [ s 1 2 0 0 s 2 2 ] = [ 1 0 0 1 4 ] \Lambda=SS^T=\begin{bmatrix}s_1^2 & 0 \\ 0 & s_2^2 \end{bmatrix}=\begin{bmatrix}1 & 0 \\ 0 & \frac{1}{4}\end{bmatrix} Λ=SST=[s1200s22]=[10041]

所以,多元正态分布得概率密度由协方差矩阵的特征向量控制旋转(rotation),特征值控制尺度(scale),均值向量控制概率密度的均值。

关于矩阵在线性变换的理解,见下篇博客。

如何直观地理解「协方差矩阵」?

多元正态分布协方差检验是一种用于检验两个或多个正态分布总体协方差矩阵是否相等的方法。该检验方法的基本思想是利用样本协方差矩阵作为总体协方差矩阵的估计量,然后根据Wilks' Lambda统计量或Hotelling-Lawley统计量进行检验。 具体地说,假设我们有k个总体,每个总体都是一个p维正态分布。我们的假设是这k个总体的协方差矩阵相等,即 H0: Σ1=Σ2=...=Σk 其中Σi表示第i个总体的协方差矩阵,H0表示原假设。我们可以利用样本协方差矩阵Si来估计Σi,然后计算Wilks' Lambda统计量或Hotelling-Lawley统计量来进行假设检验。 Wilks' Lambda统计量是一个比值,定义为 λ = |W| / (|W| + |B|) 其中|W|和|B|分别表示样本协方差矩阵和总体协方差矩阵的行列式值。如果原假设成立,那么λ服从自由度为(k-1)×p和(n-k)×p的F分布。我们可以计算λ的值,然后根据F分布表查找临界值,来判断是否拒绝原假设。 Hotelling-Lawley统计量是一个比值,定义为 T = (n-k-p+1)×|W| / [(n-1)×|B|] 其中n是样本总数。如果原假设成立,那么T服从自由度为(k-1)×p和(n-k)的F分布。我们可以计算T的值,然后根据F分布表查找临界值,来判断是否拒绝原假设。 需要注意的是,多元正态分布协方差检验要求样本来自多元正态分布,否则检验结果可能不可靠。此外,检验结果也受到样本大小、维数和总体间差异程度的影响。在实际应用中,需要根据具体情况选择合适的检验方法和参数设置。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值