漫步数理统计三十四——顺序统计量

本篇博文将定义顺序统计量并讨论这种统计量的一些简单性质。近些年来这种统计量在统计推断中占有重要角色,因为他们的某些性质不依赖于得到随意样本的分布。

X1,X2,,Xn 表示连续型分布中得到的随机样本,其pdf为 f(x) 支撑为 =(a,b),a<b Y1 Xi 中最小的, Y2 Xi 次小值的,依次类推 Yn 是最大的,那么当 X1,X2,,Xn 按大小增序排列时我们可以用 Y1<Y2<<Yn 来表示,称 Yi,i=1,2,,n 为随意样本 X1,X2,,Xn 的第 i 个顺序统计量,Y1,Y2,,Yn的联合pdf在下面定理中给出。

1 利用上面的符号, Y1<Y2<<Yn 表示随机样本 X1,X2,,Xn 的n个顺序统计量,其中随机样本是从pdf为 f(x) ,支撑为 (a,b) 的连续型分布中得到的,那么 Y1,Y2,,Yn 的联合pdf为

g(y1,y2,,yn)={n!f(y1)f(y2)f(yn)0a<y1<y2<<yn<belsewhere

注意到 X1,X2,,Xn 的支撑映射到 Y1,Y2,,Yn 的支撑(即 {(y1,y2,,yn):a<y1<y2<<yn<b} )上可以分布 n! 个互相不交的集合,这些 n! 个集合中有一个为 a<x1<x2<<xn<b 且其他的是通过置换这 n x值得到的,变换 x1=y1,x2=y2,,xn=yn 的雅可比等于1,其余的要么为1要么为-1,所以

g(y1,y2,,yn)=i=1n!|Ji|f(y1)f(y2)f(yn)={n!f(y1)f(y2)f(yn)0a<y1<y2<<yn<belsewhere

得证。 ||

1 X 表示pdf为f(x)的连续型随机变量,支撑为 =(a,b),a<b X 的分布函数F(x)可以写成

F(x)=xaf(w)dw,a<x<b

如果 xa,F(x)=0 ;如果 bx,F(x)=1 ,那么存在唯一的中值 m 使得F(m)=12,令 X1,X2,X3 表示该分布的随机样本且 Y1<Y2<Y3 表示样本的顺序统计量,我们想计算 Y2m 的概率,这三个顺序统计量的联合pdf为

g(y1,y2,y3)={6f(y1)f(y2)f(y3)0a<y1<y2<y3<belsewhere

那么 Y2 的pdf为

h(y2)=6f(y2)by2y2af(y1)f(y3)dy1dy3={6f(y2)F(y2)[1F(y2)]0a<y2<belsewhere


P(Y2m)=6ma{F(y2)f(y2)[F(y2)]2f(y2)}dy2=6{[F(y2)]22[F(y2)]33}ma=12

我们很容易看出

xa[F(w)]α1f(w)dw=[F(x)]αα,α>0


by[1F(w)]β1f(w)dw=[1F(y)]ββ,β>0

基于上面的讨论我们很容易得到任意顺序统计量的边缘pdf,假设为 Yk,F(x),f(x) 的形式,那么通过积分即可:

gk(yk)=ykay2abykbyn1n!f(y1)f(y2)f(yn)dyndyk+1dy1dyk1

得到的结果为

gk(yk)={n!(k1)!(nk)![F(yk)]k1[1F(yk)]nkf(yk)0a<yk<belsewhere

2 Y1<Y2<Y3<Y4 表示大小为4的随机样本的顺序统计量,随机样本是从pdf为

f(x)={2x00<x<1elsewhere

的分布中得到的,我们用 f(x),F(x) 表示 Y3 的pdf后就能计算 P(12<Y3) ,这里 F(x)=x2 ,假设 0<x<1 ,满足

g3(y3)={4!2!1!(y23)2(1y23)(2y3)00<y3<1elsewhere

因此

P(12<Y3)=1/2g3(y3)dy3=11/224(y53y73)dy3=243256

最后考虑任意两个顺序统计量 Yi<Yj 的联合pdf,依然用 f(x),F(x) 的形式表示可得

gij(yi,yj)=yiay2ayjyiyjyj2byjbyn1n!f(y1)f(yn)dyndyj+1dyj1dyi+1dy1dyi1

因为对于 γ>0

yx[F(y)F(w)]γ1f(w)dw=[F(y)F(w)]γγ|yx=[F(y)F(x)]γγ

所以

gij(yi,yj)=n!(i1)!(ji1)!(nj)![F(yi)]i1[F(yj)F(yi)]ji1×[1F(Yj)]njf(yi)f(yj)0a<yi<yj<belsewhere

顺序统计量 Y1,Y2,,Yn 的某些函数是非常重要的统计量,例如: (a)YnY1 为随机样本的全距; (b)(Y1+Yn)/2 为随机样本的中距; (c) 如果 n 为奇数,那么Y(n+1)/2称为随机样本的中位数。

3 Y1,Y2,Y3 是大小为3的随机样本,它是从pdf为

f(x)={100<x<1elsewhere

的分布中得到的,我们要找出全距 Z1=Y3Y1 的pdf。因为 F(x)=x,0<x<1 ,所以 Y1,Y3 的联合pdf为

g13(y1,y3)={6(y30y1)00<y1<y3<1elsewhere

除了 Z1=Y3Y1 ,令 Z2=Y3 ,函数 z1=y3y1,z2=y3 的逆分别为 y1=z2z1,y3=z2 ,故该一对一变换的雅可比为

J=y1z1y3z1y1z2y3z2=[1011]=1

所以 Z1,Z2 的联合pdf为

h(z1,z2)={|1|6z1=6z100<z1<z2<1elsewhere

那么随机样本大小为3的全距 Z1=Y3Y1 的pdf为

h1(z1)={1z16z1dz2=6z1(1z1)00<z1<1elsewhere

X 是连续cdf为F(x)的随机变量,对 0<p<1 ,定义 X 的分位数为ξp=F1(p)。例如 ξ0.5,X 的中位数为0.5分位数,令 X1,X2,,Xn X 分布的随机样本且Y1<Y2<<Yn是对应的顺序统计量,令 k=[p(n+1)] ,接下来定义 ξp 的统计量,pdf f(x) 下面从左到 Yk 的面积为 F(Yk) ,这个面积的期望值为

E(F(Yk))=baF(yk)gk(yk)dyk

其中 gk(yk) 是前面定义的 Yk 的pdf,如果对积分部分进行变换替换 z=F(yk) ,那么得到

E(F(Yk))=10n!(k1)!(nk)!zk(1z)nkdz

将其与贝塔分布的pdf进行比较可得

E(F(Yk))=n!k!(nk)!(k1)!(nk)!(n+1)!=kn+1

平均来讲, Yk 左边的面积为 k/(n+1) ,因为 p=k/(n+1) ,所以我们可以取 Yk 为分位数 ξp 的估计量。故我们称 Yk 为第p个样本分位数。

样本分位数是非常有用的统计量,例如如果 Yk 是第p个分位数,那么我们知道近似有 p100% 的数据小于等于 Yk 且近似有 (1p)100% 的数据大于等于 Yk ,接下里讨论两个分位数的统计应用。

数据的五个数构成了下面的五个样本分位数:最小值 (Y1) ,四分之一分位数 (Y0.25(n+1)) ,中位数 (Y0.5(n+1)) ,四分之三分位数 (Y0.75(n+1)) 最大值 (Yn) 。注意我们给出的中位数是奇数的情况,如果是偶数,那么中位数与传统定义一样为 (Yn/2+Yn/2+1)/2 。接下里的我们用 Q1,Q2,Q3 分别表示样本的四分之一分位数,中位数,四分之三分位数。

这五个数将数据分开,使得数据更好理解。

4 下面的数据是随机变量 X 大小为15的随机样本顺序观测值


这里写图片描述

因为n+1=16,所以五个数分别为 y1=56,Q1=y4=94,Q2=y8=102,Q3=y12=108,y15=116

这五个数是数据图像的基础,称为数据的盒图,盒子包含了中间 50% 的数据,线段用来表示中位数。然而顺序统计对离群点非常敏感,所以需要非常小心,为此我们将用box whisker图。为了定义这个图,我们需要定义潜在的离群点,令 h=1.5(Q3Q1) 且定义 lowerfence(LF) upperfence(UF)

LF=Q1h,UF=Q3+h

位于区间 (LF,UF) 之外的点称为潜在离群点,在盒图中用0表示。

5 考虑例4给出的数据, h=1.5(10894)=21,LF=73,UF=129 ,这里观测值 56,70 为潜在的离群点,盒图如图1Panel A所示。


这里写图片描述

实际中,我们常假设数据服从某个分布,例如假设 X1,,Xn 是正态分布的随机样本,分布的均值与方差未知,那么 X 的形式已知但参数未知,这样的假设需要进行验证并且存在许多统计测试方法。另一个分位数的应用就是诊断图。

我们考虑位置与尺度家族,假设X是cdf为 f((xa)/b) 的随机变量,其中 F(x) 已知但 a,b>0 未知,令 Z=(Xa)/b ,那么 Z 的cdf为F(z)。令 0<p<1,ξX,p X p分位数, ξZ,p Z=(Xa)/b p 分位数,因为F(z)已知,所以 ξZ,p 已知,但是

p=P[XξX,p]=P[ZξX,pab]

由此得到线性关系

ξX,p=bξZ,p+a

那么如果 X 有形如F((xa)/b)形式的cdf,那么 X 的分位数是Z分位数的线性函数,当然在实际中我们不知道 X 的分位数,但是我们可以估计它们。令X1,,Xn X 分布的随机样本且Y1<<Yn是顺序统计量,对于 k=1,,n,pk=k/(n+1) ,那么 Yk ξX,pk 的一个估计量。相应的cdf F(z) 分位数表示为 ξZ,pk=F1(pk) Yk,ξZ,pk 的图像成为 qq 图,它描述的是样本的分位数集合与理论cdf为 F(z) 的分位数集合的关系。基于上面的讨论,图像中的线性就表明 X 的cdf的形式为F((xa)/b)

X 是cdf为F(X)的随机变量,对于 0<p<1 ,我们用 ξp 表示分位数,其中 F(ξp)=p ,对于 X 上大小为n的样本, Y1<Y2<<Yn 是顺序统计量,令 k=[(n+1)p] ,那么 Yk ξp 的点估计。

我们现在推导 ξp 的分布自由置信区间,也就是说 ξp 的置信区间雨 F(x) 的任何假设无关,除了连续型外。令 i<[(n+1)p]<j 并考虑顺序统计量 Yi<Yj 与事件 Yi<ξp<Yj ,因为第 i 个统计量Yi小于 ξp ,所以至少有 i X值小于 ξp ,进一步因为第 j 个统计量Yj大于 ξp ,所有不到 j X值小于 ξp ,现在考虑二项分布的情况,成功的概率为 P(X<ξp)=F(ξp)=p ,进一步事件 Yi<ξp<Yj 等价于 n 个独立实验中i(包含) j (不包含)之间成功,因此

P(Yi<ξp<Yj)=w=ij1(nw)pw(1p)nw

是至少有 i 但不到j次成功的概率。当 n,i,j 都指定后,就能算出这个概率。假设找到了 γ=P(Yi<ξp<Yj) ,那么p分位数落在区间 (Yi,Yj) 之间的概率为 γ 。如果 Yi,Yj 的实验值为 yi,yj ,那么 (yi,yj) ξp100γ 的置信区间。

注意由于二项分布的离散型,只存在某些置信水平。但是如果我们进一步假设 f(x) 关于 ξ 对称,那么离散就不是问题了。

  • 6
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值