多元统计分析最短距离法_多元统计分析方法 -

本文详细介绍了多元统计分析中的最短距离法,并探讨了包括最小距离法、最长距离法、中间距离法在内的多种聚类方法。此外,还涉及K近邻聚类、类间平方和爬山法、最优分割法等算法,以及典型相关分析和多元线性回归的计算步骤。同时,文章阐述了多元正态分布、χ2分布和维希特分布的性质及其在统计分析中的应用,如样本离差矩阵的分布和统计量T2、Λ的计算与置信区域的建立。
摘要由CSDN通过智能技术生成

后与j间距离统一递推公式:Dij2=αkDik2+αrDir2+βDkr2+γ Dik2?Dir2 , 最短距离法 最长距离法 中间距离法 重心法 离差平方和法 1/2 1/2 1/2 nk nk+nrni+nk nj+ni 1/2 1/2 1/2 nr nk+nrni+nr nj+ni 0 0 -1/4 ??nknr? njnjni nj+ni-1/2 1/2 0 0 0 K近邻聚类:先将样本大致分为k类,再按某种规则逐步修改至比较合适 法名 最小距离法 初步分类;修改 分类;重复至样本分类不再变动 定义分类目标函数其值由分类结果确定,q值越大越合理;初始分类;遍历样本若q变化值为正则表示合理,按照最大值q变化值进行移动;重复直至样本分类不再改变 类间平方和爬山法:q为类间离差平方和 爬山法 改变分类类别数 分解法:按>距离 常数C进行分裂 合并:类间距 离>b不断合并 统计:m个正态 统计,有事先的置信度确定分割阈值 4.2 有序样本的分类:分类结果不可打乱样本次序 最优分割法:类似于离差平方和法

Step1:定义类的直径——该类样本的离差平方和 Step2:定义误差函数:各类直径之和D Step3:最小化误差函数下的递推公式:f(p(m,n))=min(f(p(m-1,j-1))+D(j,n)),n个样本分成m类的最优分法,可看成j-1样本分成m-1类的最优分法再加上最后(n+1-j)样本形成的m类样本合并而成。j可由m一直变到n,从中挑选出最优的j。 Step4:聚类。

最优分割法需要两张表:类直径一览表D;最小误差函数表f,根据类别数,i可分别取到2,3,。。。,m.总样本数j为2,3,4….n。根据递推公式求出不同配对(i,j)下的f(p(I,j))进行不同i下的分类。

Ch5 两组变量之间关系

5.1 典型相关分析:把原来较多变量化为少数几个典型变量,通过这几个典型变量间典型相关系数来综合描述两个多元随机变量间关系的数学方法。 给出计算方法;

Step1:将n个样本得到的二组原始矩阵Xpn,Yqn标准化,计算X,Y的相关矩阵Sxx,Syy,Sxy Step2:计算Sxx?1Sxy,Syy?1Syx Step3:D=Syy?1SyxSxx?1Sxy

Step4:求D的前k个特征根λj和特征向量v ,令归一化后为vj=Step5:令uj=

1λj

1cj

v j,其中cj=v j′Syyv j

Sxx?1Sxyvj, uj,vj为相应于λj的一对典型变量的系数。

Step6:计算典型变量:zj=u′jx,wj=vj′y,(j=1,2,…,k)

5.2 多元线性回归

X ′, Lxy=X Y ′=Lxy′, X ,Y 为中心化数据 Step1:离差矩阵Lxx=X

Step2:计算系数矩阵B和常数项向量b0: LxxB′=Lxy,b0=y ?Bx ,y ,x 分别为X,Y的平均数。 Step3:计算剩余离差矩阵Q=Lyy?BLxy,计算剩余协方差矩阵S=Q/(n-q-1);

Ch6 特殊分布

6.1 多元正态分布和χ2分布

明确几个从一维到多维推广的基本概念

6.1.1多维正态变量的定义是从一维正态分布定义而来的:x是p维随机变量,对任意p维向量a, x的线性函数y=a’x是遵从一维正态分布的随机变量,则称x是遵从p维正态分布的随机变量。记平均向量为u,协方差矩阵为 σ2的p维正态变量x为x~Np(μ, σ2). 多维正态分布的性质:

1.若x~Np(μ, σ2),则对任意p维常向量a,有

a′x~N1 a′μ,a′ σ2 a ;

2.若x~Np(μ, σ2),A是qp矩阵,则

Ax~Nq Aμ,A σ2 A′

3. 若x~Np(μ, σ2),对p维常向量a,有

x?a~Np μ?a, σ2

4. Ax与Bx相互独立的充要条件是cov(Ax,Bx)=A σ2 B’=0

5.若x1,x2,..,xk是相互独立的p维正态变量,xi~Np μi, σi2 ,则对任意常数

kk22

a1,a2,..,ak, k1aixi~Np 1aiμi, 1aiσi

6.1.2 正态样本矩阵

x1,x2,..,xn是相互独立的p维随机变量,服从同一正态分布,则Xpn=[x1,x2,..,xn]称为正态样本矩阵

定理6.1:对于Xpn,若其中各向量满足xi~Np μi, σi2 ,则有以下两个性质:

1.对任意p维向量a,X′a~Nn a′μ1n,a′ σ2 aIn , ,X′a为n个样本的各指标间的线性组合,其各分量相互独立。

2.对任意n维向量b, Xb~Np (1n′b)μ,bb′ σ2 ,Xb为p个指标各样本间的线性组合,其各分量一般不相互独立。

6.1.3 多元正态分布与χ2分布的关系

定理6.2:xi~Np 0, σi2 ,则二次型x′ σ2 ?1x~χ2(p)

6.1.4 χ2分布的几条重要定理

定理6.3:若x′=[x1,x2,..,xn]~N1(0,σ2I),A是nn对称幂等阵,秩为r,则x′Ax~σ2χ2(r) 定理6.4:若x′= x1,x2,..,xn ~N1 0,σ2I ,若A是对称幂等阵,B为任意矩阵,BA=0,则正态分布Bx和χ2分布x′Ax相互独立;若AB都是幂等阵,AB=0,则x′Ax与x′Bx相互独立。 6.2维希特分布:χ2分布在多元统计变量中的推广

6.2.1 维希特分布定义:n个p维变量x1,x2,..,xn~Np(0,σ2I),Xpn=[x1,x2,..,xn]是样本矩

2

阵,则Wpp= n1xjxj′=XX′的分布为自由度为n的p维维希特分布,记为Wp(n, σ ) 6.2.2 维希特分布与χ2分布的关系

x~Np 0, σ2 x1,x2,..,xn是其n个样本,任取一个p维向量a,则定义y=a′x~N1 0,a′ σ2 a ,则有y1=a′x1,y2=a′x2,…,yn=a′xn是总体y的n个样本。按χ2分布

n22′22′22

的定义:Q= n。 1yj~a σ aχ(n),而Q= 1yj=a’XX’a=a’Wa,故a’Wa~a σ aχ(n),定理6.5:W服从维希特分布W(n, σ2 )的充要条件是对任意p维向量a,二次型Q=a’Wa~a′ σ2 aχ2(n) 6.2.3维希特分布的性质

定理6.6:若Ann是对称幂等阵,秩为r, x1,x2,..,xn~Np 0, σ2 且相互独立,令Xpn=[x1,x2,..,xn]是样本矩阵,则XAX’ ~WP(r, σ2 )

定理6.7:x1,x2,..,xn~Np 0, σ2 且相互独立,Xpn=[x1,x2,..,xn]是样本矩阵,对任意n维向量a与对称幂等阵Ann,若Aa=0, 则正态分布Xa和维希特分布XAX′相互独立;若AB都是幂等阵,AB=0,则XAX′与XBX′相互独立。 6.2.4 样本离差矩阵的分布

x~Np μ, σ2 x1,x2,..,xn是其n个样本,Xpn=[x1,x2,..,xn]是样本矩阵,样本离差矩阵定

11′ (I?111′)X ′,其中 义为:Qpp=X(I?n11′)X′= XX=X?μ1,(I?11′)是对称幂等阵,秩为nn

n-1,则由定理6.6有Qpp~Wp n?1, σ2 。即由p元正态总体中抽出n个样本,则其样本离差平方和矩阵Q服从自由度为n-1的p维维希特分布。 6.3 统计量T2和Λ

6.3.1 统计量T2是一元t分布的推广:若W~WP(n, σ2 ), y~Np 0,c σ2 ,c为一正常数,W与y相互独立,称统计量T2=cy′W?1y是自由度为(p,n)的T2变量。 定理6.8:若T2变量服从T2(p,n),则有

n?p+1np

n

T2~F p,n?p+1

6.3.2 总体平均值的估计值与置信区域

x~Np μ, σ2 x1,x2,..,xn是其n个样本,Xpn=[x1,x2,..,xn]是样本矩阵,μ的无偏估计

σ 11

x =Xpn1, x ?μ= X1~Np 0,, Qpp~Wp n?1, σ2 ,且x ?μ与Q相互独立,则 nnn

2

T2=n n?1 x ?μ ′Q?1(x ?μ) 自由度为(p,n-1)的T2变量,故中,

n?pp

n?1 ?p+1(n?1)p

T2~F p,n?p ,实际

x ?μ ′S?1(x ?μ)~F p,n?p ,其中S=Q/n是样本协方差矩阵。

pF

应用:给定置信度α,即可求置信区域为 x ?μ ′S?1(x ?μ)≤n?α p

6.3.3 广义方差:p维随机变量x的协方差矩阵为 σ2, σ2 为广义方差。 6.3.4 Λ统计量:F统计量的推广

Λ统计量:W1~WP n1, σ2 ,W2~WP n2, σ2 ,Λ= W当p=1时,Λ=Q

Q1

1+Q2

W1

1+W2

为自由度为(p, n1,n2)的Λ分布

=

11+F

n2n1

Λ统计量的分布:当p>8, n2<8时,可以用Λα p,n1,n2 =Λα n2,n1+n2?m,p 查常用Λ表。 定理6.9:当n1+n2?小结

一维正态分布一元t分布一元F分布p+n2?1

2

较大时,v=?(n1+n2?

p+n2?1

2

)lnΛ p,n1,n2

多属性卡方分布定理6.2多维正态分布多属性所属性定理6.5多样本统计t方分布尖角分布维希特分布正态样本矩阵ch7 假设检查和方差分析

7.1 两总体平均向量的假设检查 7.1.1 一维 多维(平均值的检验) 多维(协方差矩阵的检验):采用极大似然比作为统计量进行检验 x~Np μ, σ2 x1,x2,..,xn是其n个样本,假设: σ2= σ02, σ2是已知的正定阵,检验统计量λ1=FωFΩ总体方差已知,原假设:协方差矩阵已知,原假设总体平均μ=μ0,u=值向量μ=μ0,统计量 x ? ?μ0xσ n~N1 0,1 2′ σ ?1μ0 (n)(x ?μ0) ~χ2(p) ,有?2ln?(λ1)=n[tr S σ02 ?1 ?ln S σ02 ?1 ?p],其中tr S σ02 ?1 表示矩阵的迹,即对角线上元素之和。 当n较大时,?2ln?(λ1) ~χ2(p(p+1)2) 在n较小时,计算统计量L= (n?1)[tr n?1S σ02 ?1 ?ln n?1S σ02 ?1 ?p],当L≥Lα(p,n?1)时拒绝原假设 总体方差未知,原假设:总体协方差未知,原假设总体平均μ=μ0,t=Q n n?1 nn ?μ0x~t n?值向量μ=μ0,统计量(n?p)np x ?1 ,Q为样本离差平方和 两总体方差相同,原假设:μ=μ0,t= ? x1x2Q1+Q2n1+n2 n+n n12?21n2μ0 ′ Q ?1(x ?μ0) ~F(p,n?p) 假定两协方差矩阵相等,原假设总体平均值向量μ=μ0,统计量n1n2 n1+n2?p?1 x 1p n1+n2 ~t n1+?n2?2 ,Q为样本离差平方和 2x ′ Q1+Q2 ?1(x 1?x 2 ) ~F(p,n1+n2?p?1) 同时检查m个总体的平平均向量各分量之间是否有关系 均数是否相同:方差分析 (线性关系用A,b表示),原假设:Aμ=b,统计量F=(n?q)nq Ax ?b ′ AQA′ ?1(Ax ?b) ~F(q,n?q) 协方差不等平均向量的假设检查,原假设:μ1=μ2,假设量:12yi=x1i? xi+ n1n2n1n212 n1xi?n n 12xi2(n1≤n2),这样有统21计F=(n1?p)n1p?1量 y ′ Qy (y ) ~F(p,n1?p),式中,令 12ui=x1i? nxi2n,则Qy=1 n )(ui?u )′ 1(ui?u7.2 协方差矩阵的检查

最大似然比:没有限制条件时最大似然值为FΩ,增加假设参数间的关系也即增加了限制条件,在满足限制条件下求最大似然值Fω,引入统计量λω=

FωFΩ

,λω定义为最大似然比。Λω

越接近1,说明在加上假设的限制条件后与不加假设一样 ,说明假设的限制条件是实际存在的,也即假设

的关系符合实际

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值