本篇博文将定义顺序统计量并讨论这种统计量的一些简单性质。近些年来这种统计量在统计推断中占有重要角色,因为他们的某些性质不依赖于得到随意样本的分布。
X1,X2,…,Xn
表示连续型分布中得到的随机样本,其pdf为
f(x)
支撑为
=(a,b),−∞≤a<b≤∞
,
Y1
是
Xi
中最小的,
Y2
是
Xi
次小值的,依次类推
Yn
是最大的,那么当
X1,X2,…,Xn
按大小增序排列时我们可以用
Y1<Y2<⋯<Yn
来表示,称
Yi,i=1,2,…,n
为随意样本
X1,X2,…,Xn
的第
i
个顺序统计量,
定理1:
利用上面的符号,
Y1<Y2<⋯<Yn
表示随机样本
X1,X2,…,Xn
的n个顺序统计量,其中随机样本是从pdf为
f(x)
,支撑为
(a,b)
的连续型分布中得到的,那么
Y1,Y2,…,Yn
的联合pdf为
证明:
注意到
X1,X2,…,Xn
的支撑映射到
Y1,Y2,…,Yn
的支撑(即
{(y1,y2,…,yn):a<y1<y2<⋯<yn<b}
)上可以分布
n!
个互相不交的集合,这些
n!
个集合中有一个为
a<x1<x2<⋯<xn<b
且其他的是通过置换这
n
个
得证。 ||
例1:
X
表示pdf为
如果
x≤a,F(x)=0
;如果
b≤x,F(x)=1
,那么存在唯一的中值
m
使得
那么
Y2
的pdf为
故
我们很容易看出
且
基于上面的讨论我们很容易得到任意顺序统计量的边缘pdf,假设为
Yk,F(x),f(x)
的形式,那么通过积分即可:
得到的结果为
例2:
Y1<Y2<Y3<Y4
表示大小为4的随机样本的顺序统计量,随机样本是从pdf为
的分布中得到的,我们用
f(x),F(x)
表示
Y3
的pdf后就能计算
P(12<Y3)
,这里
F(x)=x2
,假设
0<x<1
,满足
因此
最后考虑任意两个顺序统计量
Yi<Yj
的联合pdf,依然用
f(x),F(x)
的形式表示可得
因为对于
γ>0
所以
顺序统计量
Y1,Y2,…,Yn
的某些函数是非常重要的统计量,例如:
(a)Yn−Y1
为随机样本的全距;
(b)(Y1+Yn)/2
为随机样本的中距;
(c)
如果
n
为奇数,那么
例3:
Y1,Y2,Y3
是大小为3的随机样本,它是从pdf为
的分布中得到的,我们要找出全距
Z1=Y3−Y1
的pdf。因为
F(x)=x,0<x<1
,所以
Y1,Y3
的联合pdf为
除了
Z1=Y3−Y1
,令
Z2=Y3
,函数
z1=y3−y1,z2=y3
的逆分别为
y1=z2−z1,y3=z2
,故该一对一变换的雅可比为
所以
Z1,Z2
的联合pdf为
那么随机样本大小为3的全距
Z1=Y3−Y1
的pdf为
X
是连续cdf为
其中
gk(yk)
是前面定义的
Yk
的pdf,如果对积分部分进行变换替换
z=F(yk)
,那么得到
将其与贝塔分布的pdf进行比较可得
平均来讲, Yk 左边的面积为 k/(n+1) ,因为 p=k/(n+1) ,所以我们可以取 Yk 为分位数 ξp 的估计量。故我们称 Yk 为第p个样本分位数。
样本分位数是非常有用的统计量,例如如果 Yk 是第p个分位数,那么我们知道近似有 p100% 的数据小于等于 Yk 且近似有 (1−p)100% 的数据大于等于 Yk ,接下里讨论两个分位数的统计应用。
数据的五个数构成了下面的五个样本分位数:最小值 (Y1) ,四分之一分位数 (Y0.25(n+1)) ,中位数 (Y0.5(n+1)) ,四分之三分位数 (Y0.75(n+1)), 最大值 (Yn) 。注意我们给出的中位数是奇数的情况,如果是偶数,那么中位数与传统定义一样为 (Yn/2+Yn/2+1)/2 。接下里的我们用 Q1,Q2,Q3 分别表示样本的四分之一分位数,中位数,四分之三分位数。
这五个数将数据分开,使得数据更好理解。
例4:
下面的数据是随机变量
X
大小为15的随机样本顺序观测值
因为
这五个数是数据图像的基础,称为数据的盒图,盒子包含了中间
50%
的数据,线段用来表示中位数。然而顺序统计对离群点非常敏感,所以需要非常小心,为此我们将用box whisker图。为了定义这个图,我们需要定义潜在的离群点,令
h=1.5(Q3−Q1)
且定义
lowerfence(LF)
与
upperfence(UF)
为
位于区间 (LF,UF) 之外的点称为潜在离群点,在盒图中用0表示。
例5:
考虑例4给出的数据,
h=1.5(108−94)=21,LF=73,UF=129
,这里观测值
56,70
为潜在的离群点,盒图如图1Panel A所示。
实际中,我们常假设数据服从某个分布,例如假设 X1,…,Xn 是正态分布的随机样本,分布的均值与方差未知,那么 X 的形式已知但参数未知,这样的假设需要进行验证并且存在许多统计测试方法。另一个分位数的应用就是诊断图。
我们考虑位置与尺度家族,假设
由此得到线性关系
那么如果
X
有形如
X
是cdf为
我们现在推导
ξp
的分布自由置信区间,也就是说
ξp
的置信区间雨
F(x)
的任何假设无关,除了连续型外。令
i<[(n+1)p]<j
并考虑顺序统计量
Yi<Yj
与事件
Yi<ξp<Yj
,因为第
i
个统计量
是至少有
i
但不到
注意由于二项分布的离散型,只存在某些置信水平。但是如果我们进一步假设 f(x) 关于 ξ 对称,那么离散就不是问题了。