《多元统计分析》学习笔记之多元正态分布

鄙人笔记,记一些知识点。



多元正态分布

1.1多元分布的基本概念

  • 随机变量

假定所讨论的是多个变量的总体,所研究的数据是同时观测p 个指标(即变量),进行了n 次观测得到的,我们把这p 个指标表示为X1,X2,…,Xp,常用向量X =(X1,X2,…,Xp)′表示对同一个体观测的p 个变量。若观测了n 个个体,称每一个个体的p 个变量为一个样品,而全体n 个样品形成一个样本

  • 分布函数

描述随机变量的最基本工具是分布函数。类似地,描述随机向量的最基本工具还是分布函数。

  • 多元变量的独立性

类似地,若联合分布等于各自分布的乘积,称 p个随机向量 X1,X2,…,Xp相互独立。由X1,X2,…,Xp相互独立可以推知任何 Xi与 Xj( i ≠ j)独立,但是,若已知任何 Xi与 Xj( i ≠ j)独立,并不能推出 X1,X2,…,Xp相互独立。

  • 随机向量的数字特征

1.随机向量x的均值

当 A, B为常数矩阵时,由定义可立即推出如下性质:
(1)E(AX)=AE(X)
(2)E(AXB)=AE(X)B

2.随机向量X的协方差阵

称 ∣ cov( X, X) ∣为 X的广义方差,它是协方差阵的行列式之值。

3.随机向量X和Y的协方差阵
当A,B为常数矩阵时,由定义可推出协方差阵有如下性质:
(1)D(AX)=AD(X)A′=A∑A′
(2)cov(AX,BY)=Acov(X,Y)B′
(3)设 X为 n维随机向量,期望和协方差存在,记 μ=∑(X) 喵喵喵? , ∑= D( X), A为 n × n常数阵,则:

E(X'AX) = tr(A∑) + μ'Aμ

对于任何随机向量 X=(X1,X2,…,Xp)′来说,其协方差阵 ∑都是对称阵,同时总是非负定(也称半正定)的。大多数情形下是正定的。

  • 随机向量X的相关阵

在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,将每个指标“标准化”。标准化数据的协方差阵正好是原指标的相关阵

1.2统计距离

  • 欧氏距离

大部分多元方法是建立在简单的距离概念基础上的,即平时人们熟悉的欧氏距离,或称直线距离。一般,若点P 的坐标P =(x1,x2,…,xp),则它到原点O =(0,0,…,0)的欧氏距离,依勾股定理有:

任意两个点P=(x1,x2,…,xp)与Q=(y1,y2,…,yp)之间的欧氏距离为:

但就大部分统计问题而言,欧氏距离是不能令人满意的。这是因为每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。欧氏距离还有一个缺点,那就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。

  • 统计距离

有必要建立一种距离,这种距离应能够体现各个变量在变差大小上的不同,以及有时存在的相关性,还要求距离与各变量所用的单位无关。看来,我们选择的距离要依赖于样本方差和协方差。因此,采用“统计距离”这个术语,以区别通常习惯用的欧氏距离。
设P =(x1,x2,…,xp),Q =(y1,y2,…,yp),且Q 的坐标是固定的,点P 的坐标相互独立地变化。用S11,S22,…,Spp 表示P 个变量x1,x2,…,xp 的n 次观测的样本方差。为给出坐标的合理权数,用坐标标准离差去除以每个坐标,得到标准化坐标,则从P 到Q 的统计距离为:

  • 马氏距离
    最常用的一种统计距离是印度统计学家马哈拉诺比斯( Mahalanobis)于 1936年引入的距离,称为“马氏距离”。
    设X,Y是从均值向量为μ,协方差阵为∑的总体G中抽取的两个样品,定义X,Y两点之间的马氏距离为:

    定义X与总体G的马氏距离为:

  • 基本公理

设 E表示一个点集, d表示距离,它是 E × E到[ 0, ∞)的函数,可以证明,马氏距离符合如下距离的四条基本公理:
(1) d( x, y) ≥ 0, ∀ x, y ∈ E
(2) d( x, y)= 0, 当且仅当 x= y
(3) d( x, y)= d( y, x), ∀ x, y ∈ E
(4) d( x, y) ≤ d( x, z)+ d( z, y), ∀ x, y, z ∈ E

1.3多元正态分布

  • 多元正态分布是一元正态分布的推广

多元正态分布是一元正态分布的推广。迄今为止,多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是多元正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。

  • 多元正态分布概率密度函数

若 p元随机向量 X=(x1,x2,…,xp)′的概率密度函数为:

则称 X=( x1,x2,…,xp)′遵从 p元正态分布,也称 X为 p元正态变量,记为:

X~ N p( μ, ∑)

∣ ∑ ∣为协方差阵 ∑的行列式。

  • 多元正态分布的性质

(1)如果正态随机向量 X=( X1, X2,…, Xp)′的协方差阵 ∑是对角阵,则 X的各分量是相互独立的随机变量
(2)多元正态分布随机向量 X的任何一个分量子集[多变量( x1,x2,…,xp)′中的一部分变量构成的集合]的分布(称为 X的边缘分布)仍然遵从正态分布。反之,若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布
(3)多元正态向量 X=( X1, X2,…, Xp)′的任意线性变换仍然遵从多元正态分布。
即设X ~Np(μ,∑),而m 维随机向量Zm × 1 =AX +b,其中A =(aij)是m × p 阶的常数矩阵,b 是m 维的常向量,则m 维随机向量Z 也是正态的,且Z ~Nm(A μ +b,A ∑ A′)。即Z 遵从m 元正态分布,其均值向量为A μ +b,协方差阵为A ∑ A′。
(4)若 X~ Np( μ, ∑),则:

d2若为定值,随着 X的变化,其轨迹为一椭球面,是 X的密度函数的等值面。若 X给定,则 d2为 X到 μ的马氏距离。

  • 正态分布的条件分布

设X~Np(μ,∑),p≥2,将X,μ和∑剖分如下:

设 X~ Np( μ, ∑), ∑> 0,则:

(X (1) ∣ X (2) )~ N q( μ 1· 2 , ∑ 11· 2

其中:

1.5常用分布及抽样分布

  • 统计量

多元统计研究的是多指标问题,为了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量,统计量的分布称为抽样分布。
在数理统计中常用的抽样分布有 χ2分布、 t分布和 F分布。在多元统计中,与之对应的分布分别为 Wishart分布、 T2分布和 Wilks分布。

  • Wishart分布

设 X(α) =( X α1, X α2,…, X αp)′( α= 1, 2,…, n)相互独立,且 X(α)~ Np( μ α, ∑),记 X=( X(1), X(2),…, X(n)),则随机矩阵:

所遵从的分布称为自由度为 n的 p维非中心 Wishart分布,记为 W~ Wp( n, ∑, Z)。其中, n ≥ p, ∑> 0

μ αi称为非中心参数,当 μ α= 0时称为中心 Wishart分布,记为 Wp( n, ∑)

  • T2分布

设 W~ Wp( n, ∑), X~ Np( 0, c ∑), c> 0, n ≥ p, ∑> 0, W与 X相互独立,则称随机变量

所遵从的分布称为第一自由度为 p、第二自由度为 n的中心 T2分布,记为 T2~ T2( p, n)

  • 中心 T2分布可化为中心 F分布

中心 T2分布可化为中心 F分布,其关系可表示为:

显然,当 p= 1时,有 T2( 1, n)= F( 1, n)。

  • Wilks分布

F分布能否推广到多元呢?由于 F分布由两个方差比构成,而多元总体 Np( μ, ∑)的变异由协方差阵确定,它不是一个数字,这就产生了如何用与协方差阵 ∑有关的一个量来描述总体 Np( μ, ∑)的变异的问题,它是将 F分布推广到多元情形的关键。

描述 Np( μ, ∑)的变异度的统计参数称为广义方差。围绕这一问题产生了许多方法,有的用行列式,有的用迹,主要的方法有以下几种:

设 W1~ Wp( n1, ∑), W2~ Wp( n2, ∑), ∑> 0, n1> p,且 W1与 W2相互独立,则:

所遵从的分布称为维数为p,第一自由度为n1,第二自由度为n2的Wilks分布,记为ʌ~ʌ(p,n1,n2)。

  • 11
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GUI Research Group

谢谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值