漫步数理统计三十四——顺序统计量-CSDN博客

本篇博文将定义顺序统计量并讨论这种统计量的一些简单性质。近些年来这种统计量在统计推断中占有重要角色，因为他们的某些性质不依赖于得到随意样本的分布。

$X_1,X_2,\ldots,X_n$ 表示连续型分布中得到的随机样本，其pdf为 $f(x)$ 支撑为 $\mathcal{S}=(a,b),-\infty\leq a<b\leq\infty$ ， $Y_1$ 是 $X_i$ 中最小的， $Y_2$ 是 $X_i$ 次小值的，依次类推 $Y_n$ 是最大的，那么当 $X_1,X_2,\ldots,X_n$ 按大小增序排列时我们可以用 $Y_1<Y_2<\cdots<Y_n$ 来表示，称 $Y_i,i=1,2,\ldots,n$ 为随意样本 $X_1,X_2,\ldots,X_n$ 的第 $i$ 个顺序统计量， $Y_1,Y_2,\ldots,Y_n$ 的联合pdf在下面定理中给出。

$\textbf{定理1：}$ 利用上面的符号， $Y_1<Y_2<\cdots<Y_n$ 表示随机样本 $X_1,X_2,\ldots,X_n$ 的n个顺序统计量，其中随机样本是从pdf为 $f(x)$ ，支撑为 $(a,b)$ 的连续型分布中得到的，那么 $Y_1,Y_2,\ldots,Y_n$ 的联合pdf为

g (y 1, y 2, \dots, y n) = {n! f (y 1) f (y 2) \dots f (y n) 0 a < y 1 < y 2 < \dots < y n < b e l s e w h e r e

$g(y_1,y_2,\ldots,y_n)= \begin{cases} n!f(y_1)f(y_2)\cdots f(y_n)&a<y_1<y_2<\cdots<y_n<b\\ 0&elsewhere \end{cases}$

$\textbf{证明：}$ 注意到 $X_1,X_2,\ldots,X_n$ 的支撑映射到 $Y_1,Y_2,\ldots,Y_n$ 的支撑(即 $\{(y_1,y_2,\ldots,y_n):a<y_1<y_2<\cdots<y_n<b\}$ )上可以分布 $n!$ 个互相不交的集合，这些 $n!$ 个集合中有一个为 $a<x_1<x_2<\cdots<x_n<b$ 且其他的是通过置换这 $n$ 个 $x$ 值得到的，变换 $x1=y_1,x_2=y_2,\ldots,x_n=y_n$ 的雅可比等于1，其余的要么为1要么为-1，所以

g (y 1, y 2, \dots, y n) = \sum i = 1 n! | J i | f (y 1) f (y 2) \dots f (y n) = {n! f (y 1) f (y 2) \dots f (y n) 0 a < y 1 < y 2 < \dots < y n < b e l s e w h e r e

$\begin{align*} g(y_1,y_2,\ldots,y_n) &=\sum_{i=1}^{n!}|J_i|f(y_1)f(y_2)\cdots f(y_n)\\ &=\begin{cases} n!f(y_1)f(y_2)\cdots f(y_n)&a<y_1<y_2<\cdots<y_n<b\\ 0&elsewhere \end{cases} \end{align*}$

得证。 $||$

$\textbf{例1：}$ $X$ 表示pdf为 $f(x)$ 的连续型随机变量，支撑为 $\mathcal{S}=(a,b),-\infty\leq a<b\leq\infty$ ， $X$ 的分布函数 $F(x)$ 可以写成

F (x) = \int x a f (w) d w, a < x < b

$F(x)=\int_a^xf(w)dw,a<x<b$

如果 $x\leq a,F(x)=0$ ；如果 $b\leq x,F(x)=1$ ，那么存在唯一的中值 $m$ 使得 $F(m)=\frac{1}{2}$ ，令 $X_1,X_2,X_3$ 表示该分布的随机样本且 $Y_1<Y_2<Y_3$ 表示样本的顺序统计量，我们想计算 $Y_2\leq m$ 的概率，这三个顺序统计量的联合pdf为

g (y 1, y 2, y 3) = {6 f (y 1) f (y 2) f (y 3) 0 a < y 1 < y 2 < y 3 < b e l s e w h e r e

$g(y_1,y_2,y_3)= \begin{cases} 6f(y_1)f(y_2)f(y_3)&a<y_1<y_2<y_3<b\\ 0&elsewhere \end{cases}$

那么 $Y_2$ 的pdf为

h (y 2) = 6 f (y 2) \int b y 2 \int y 2 a f (y 1) f (y 3) d y 1 d y 3 = {6 f (y 2) F (y 2) [1 - F (y 2)] 0 a < y 2 < b e l s e w h e r e

$\begin{align*} h(y_2) &=6f(y_2)\int_{y_2}^b\int_a^{y_2}f(y_1)f(y_3)dy_1dy_3\\ &=\begin{cases} 6f(y_2)F(y_2)[1-F(y_2)]&a<y_2<b\\ 0&elsewhere \end{cases} \end{align*}$

故

P (Y 2 \leq m) = 6 \int m a {F (y 2) f (y 2) - [F (y 2)] 2 f (y 2)} d y 2 = 6 {[ F ( y 2 ) ] 2 2 - [ F ( y 2 ) ] 3 3} m a = 1 2

$\begin{align*} P(Y_2\leq m) &=6\int_a^m\{F(y_2)f(y_2)-[F(y_2)]^2f(y_2)\}dy_2\\ &=6\left\{\frac{[F(y_2)]^2}{2}-\frac{[F(y_2)]^3}{3}\right\}_a^m=\frac{1}{2} \end{align*}$

我们很容易看出

\int x a [F (w)] α - 1 f (w) d w = [ F ( x ) ] α α, α > 0

$\int_a^x[F(w)]^{\alpha-1}f(w)dw=\frac{[F(x)]^\alpha}{\alpha},\alpha>0$

且

\int b y [1 - F (w)] β - 1 f (w) d w = [ 1 - F ( y ) ] β β, β > 0

$\int_y^b[1-F(w)]^{\beta-1}f(w)dw=\frac{[1-F(y)]^\beta}{\beta},\beta>0$

基于上面的讨论我们很容易得到任意顺序统计量的边缘pdf，假设为 $Y_k,F(x),f(x)$ 的形式，那么通过积分即可：

g k (y k) = \int y k a \dots \int y 2 a \int b y k \dots \int b y n - 1 n! f (y 1) f (y 2) \dots f (y n) d y n \dots d y k + 1 d y 1 \dots d y k - 1

$g_k(y_k)=\int_a^{y_k}\cdots\int_a^{y_2}\int_{y_k}^b\cdots\int_{y_{n-1}}^bn!f(y_1)f(y_2)\cdots f(y_n)dy_n\cdots dy_{k+1}dy_1\cdots dy_{k-1}$

得到的结果为

g k (y k) = {n ! ( k - 1 ) ! ( n - k ) ! [F (y k)] k - 1 [1 - F (y k)] n - k f (y k) 0 a < y k < b e l s e w h e r e

$g_k(y_k)= \begin{cases} \frac{n!}{(k-1)!(n-k)!}[F(y_k)]^{k-1}[1-F(y_k)]^{n-k}f(y_k)&a<y_k<b\\ 0&elsewhere \end{cases}$

$\textbf{例2：}$ $Y_1<Y_2<Y_3<Y_4$ 表示大小为4的随机样本的顺序统计量，随机样本是从pdf为

f (x) = {2 x 0 0 < x < 1 e l s e w h e r e

$f(x)=\begin{cases} 2x&0<x<1\\ 0&elsewhere \end{cases}$

的分布中得到的，我们用 $f(x),F(x)$ 表示 $Y_3$ 的pdf后就能计算 $P(\frac{1}{2}<Y_3)$ ，这里 $F(x)=x^2$ ，假设 $0<x<1$ ，满足

g 3 (y 3) = {4 ! 2 ! 1 ! (y 23) 2 (1 - y 23) (2 y 3) 0 0 < y 3 < 1 e l s e w h e r e

$g_3(y_3)= \begin{cases} \frac{4!}{2!1!}(y_3^2)^2(1-y_3^2)(2y_3)&0<y_3<1\\ 0&elsewhere \end{cases}$

因此

P (1 2 < Y 3) = \int \infty 1 / 2 g 3 (y 3) d y 3 = \int 1 1 / 2 24 (y 53 - y 73) d y 3 = 243 256

$\begin{align*} P(\frac{1}{2}<Y_3) &=\int_{1/2}^\infty g_3(y_3)dy_3\\ &=\int_{1/2}^124(y_3^5-y_3^7)dy_3=\frac{243}{256} \end{align*}$

最后考虑任意两个顺序统计量 $Y_i<Y_j$ 的联合pdf，依然用 $f(x),F(x)$ 的形式表示可得

g i j (y i, y j) = \int y i a \dots \int y 2 a \int y j y i \dots \int y j y j - 2 \int b y j \dots \int b y n - 1 n! f (y 1) \dots f (y n) d y n \dots d y j + 1 d y j - 1 \dots d y i + 1 d y 1 \dots d y i - 1

$\begin{align*} g_{ij}(y_i,y_j)=\int_a^{y_i}\cdots\int_a^{y_2}\int_{y_i}^{y_j}\cdots&\int_{y_{j-2}}^{y_{j}}\int_{y_{j}}^b\cdots\int_{y_{n-1}}^b n!f(y_1)\cdots \\ &f(y_n)dy_n\cdots dy_{j+1}dy_{j-1}\cdots dy_{i+1}dy_1\cdots dy_{i-1} \end{align*}$

因为对于 $\gamma>0$

\int y x [F (y) - F (w)] γ - 1 f (w) d w = - [ F ( y ) - F ( w ) ] γ γ | y x = [ F ( y ) - F ( x ) ] γ γ

$\begin{align*} \int_x^y[F(y)-F(w)]^{\gamma-1}f(w)dw &=-\frac{[F(y)-F(w)]^\gamma}{\gamma}|_x^y\\ &=\frac{[F(y)-F(x)]^\gamma}{\gamma} \end{align*}$

所以

g i j (y i, y j) = ⎧ ⎩ ⎨ ⎪ ⎪ n ! ( i - 1 ) ! ( j - i - 1 ) ! ( n - j ) ! [F (y i)] i - 1 [F (y j) - F (y i)] j - i - 1 \times [1 - F (Y j)] n - j f (y i) f (y j) 0 a < y i < y j < b e l s e w h e r e

$g_{ij}(y_i,y_j)= \begin{cases} \frac{n!}{(i-1)!(j-i-1)!(n-j)!}[F(y_i)]^{i-1}[F(y_j)-F(y_i)]^{j-i-1}\\ \times[1-F(Y_j)]^{n-j}f(y_i)f(y_j)&a<y_i<y_j<b\\ 0&elsewhere \end{cases}$

顺序统计量 $Y_1,Y_2,\ldots,Y_n$ 的某些函数是非常重要的统计量，例如： $(a)Y_n-Y_1$ 为随机样本的全距； $(b)(Y_1+Y_n)/2$ 为随机样本的中距； $(c)$ 如果 $n$ 为奇数，那么 $Y_{(n+1)/2}$ 称为随机样本的中位数。

$\textbf{例3：}$ $Y_1,Y_2,Y_3$ 是大小为3的随机样本，它是从pdf为

f (x) = {10 0 < x < 1 e l s e w h e r e

$f(x)=\begin{cases} 1&0<x<1\\ 0&elsewhere \end{cases}$

的分布中得到的，我们要找出全距 $Z_1=Y_3-Y_1$ 的pdf。因为 $F(x)=x,0<x<1$ ，所以 $Y_1,Y_3$ 的联合pdf为

g 13 (y 1, y 3) = {6 (y 3 0 y 1) 0 0 < y 1 < y 3 < 1 e l s e w h e r e

$g_{13}(y_1,y_3)= \begin{cases} 6(y_30y_1)&0<y_1<y_3<1\\ 0&elsewhere \end{cases}$

除了 $Z_1=Y_3-Y_1$ ，令 $Z_2=Y_3$ ，函数 $z_1=y_3-y_1,z_2=y_3$ 的逆分别为 $y_1=z_2-z_1,y_3=z_2$ ，故该一对一变换的雅可比为

J = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial z 1 \partial y 3 \partial z 1 \partial y 1 \partial z 2 \partial y 3 \partial z 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = [- 1 0 11] = - 1

$J= \begin{bmatrix} \frac{\partial y_1}{\partial z_1}&\frac{\partial y_1}{\partial z_2}\\ \frac{\partial y_3}{\partial z_1}&\frac{\partial y_3}{\partial z_2}\\ \end{bmatrix}= \begin{bmatrix} -1&1\\ 0&1 \end{bmatrix} =-1$

所以 $Z_1,Z_2$ 的联合pdf为

h (z 1, z 2) = {| - 1 | 6 z 1 = 6 z 1 0 0 < z 1 < z 2 < 1 e l s e w h e r e

$h(z_1,z_2)= \begin{cases} |-1|6z_1=6z_1&0<z_1<z_2<1\\ 0&elsewhere \end{cases}$

那么随机样本大小为3的全距 $Z_1=Y_3-Y_1$ 的pdf为

h 1 (z 1) = {\int 1 z 1 6 z 1 d z 2 = 6 z 1 (1 - z 1) 0 0 < z 1 < 1 e l s e w h e r e

$h_1(z_1)= \begin{cases} \int_{z_1}^16z_1dz_2=6z_1(1-z_1)&0<z_1<1\\ 0&elsewhere \end{cases}$

$X$ 是连续cdf为 $F(x)$ 的随机变量，对 $0<p<1$ ，定义 $X$ 的分位数为 $\xi_p=F^{-1}(p)$ 。例如 $\xi_{0.5},X$ 的中位数为0.5分位数，令 $X_1,X_2,\ldots,X_n$ 是 $X$ 分布的随机样本且 $Y_1<Y_2<\cdots<Y_n$ 是对应的顺序统计量，令 $k=[p(n+1)]$ ，接下来定义 $\xi_p$ 的统计量，pdf $f(x)$ 下面从左到 $Y_k$ 的面积为 $F(Y_k)$ ，这个面积的期望值为

E (F (Y k)) = \int b a F (y k) g k (y k) d y k

$E(F(Y_k))=\int_a^bF(y_k)g_k(y_k)dy_k$

其中 $g_k(y_k)$ 是前面定义的 $Y_k$ 的pdf，如果对积分部分进行变换替换 $z=F(y_k)$ ，那么得到

E (F (Y k)) = \int 10 n ! ( k - 1 ) ! ( n - k ) ! z k (1 - z) n - k d z

$E(F(Y_k))=\int_0^1\frac{n!}{(k-1)!(n-k)!}z^k(1-z)^{n-k}dz$

将其与贝塔分布的pdf进行比较可得

E (F (Y k)) = n ! k ! ( n - k ) ! ( k - 1 ) ! ( n - k ) ! ( n + 1 ) ! = k n + 1

$E(F(Y_k))=\frac{n!k!(n-k)!}{(k-1)!(n-k)!(n+1)!}=\frac{k}{n+1}$

平均来讲， $Y_k$ 左边的面积为 $k/(n+1)$ ，因为 $p=k/(n+1)$ ，所以我们可以取 $Y_k$ 为分位数 $\xi_p$ 的估计量。故我们称 $Y_k$ 为第p个样本分位数。

样本分位数是非常有用的统计量，例如如果 $Y_k$ 是第p个分位数，那么我们知道近似有 $p100\%$ 的数据小于等于 $Y_k$ 且近似有 $(1-p)100\%$ 的数据大于等于 $Y_k$ ，接下里讨论两个分位数的统计应用。

数据的五个数构成了下面的五个样本分位数：最小值 $(Y_1)$ ，四分之一分位数 $(Y_{0.25(n+1)})$ ，中位数 $(Y_{0.5(n+1)})$ ，四分之三分位数 $(Y_{0.75(n+1)})，$ 最大值 $(Y_n)$ 。注意我们给出的中位数是奇数的情况，如果是偶数，那么中位数与传统定义一样为 $(Y_{n/2}+Y_{n/2+1})/2$ 。接下里的我们用 $Q_1,Q_2,Q_3$ 分别表示样本的四分之一分位数，中位数，四分之三分位数。

这五个数将数据分开，使得数据更好理解。

$\textbf{例4：}$ 下面的数据是随机变量 $X$ 大小为15的随机样本顺序观测值

因为 $n+1=16$ ，所以五个数分别为 $y_1=56,Q_1=y_4=94,Q_2=y_8=102,Q_3=y_{12}=108,y_{15}=116$ 。

这五个数是数据图像的基础，称为数据的盒图，盒子包含了中间 $50\%$ 的数据，线段用来表示中位数。然而顺序统计对离群点非常敏感，所以需要非常小心，为此我们将用box whisker图。为了定义这个图，我们需要定义潜在的离群点，令 $h=1.5(Q_3-Q_1)$ 且定义 $lower fence(LF)$ 与 $upper fence(UF)$ 为

L F = Q 1 - h, U F = Q 3 + h

$LF=Q_1-h,\quad UF=Q_3+h$

位于区间 $(LF,UF)$ 之外的点称为潜在离群点，在盒图中用0表示。

$\textbf{例5：}$ 考虑例4给出的数据， $h=1.5(108-94)=21,LF=73,UF=129$ ，这里观测值 $56,70$ 为潜在的离群点，盒图如图1Panel A所示。

实际中，我们常假设数据服从某个分布，例如假设

X1,…,Xn $X_1,\ldots,X_n$ 是正态分布的随机样本，分布的均值与方差未知，那么

X $X$ 的形式已知但参数未知，这样的假设需要进行验证并且存在许多统计测试方法。另一个分位数的应用就是诊断图。

我们考虑位置与尺度家族，假设 $X$ 是cdf为 $f((x-a)/b)$ 的随机变量，其中 $F(x)$ 已知但 $a,b>0$ 未知，令 $Z=(X-a)/b$ ，那么 $Z$ 的cdf为 $F(z)$ 。令 $0<p<1,\xi_{X,p}$ 是 $X$ 的 $p$ 分位数， $\xi_{Z,p}$ 是 $Z=(X-a)/b$ 的 $p$ 分位数，因为 $F(z)$ 已知，所以 $\xi_{Z,p}$ 已知，但是

p = P [X \leq ξ X, p] = P [Z \leq ξ X , p - a b]

$p=P[X\leq\xi_{X,p}]=P\left[Z\leq\frac{\xi_{X,p}-a}{b}\right]$

由此得到线性关系

ξ X, p = b ξ Z, p + a

$\xi_{X,p}=b\xi_{Z,p}+a$

那么如果 $X$ 有形如 $F((x-a)/b)$ 形式的cdf，那么 $X$ 的分位数是 $Z$ 分位数的线性函数，当然在实际中我们不知道 $X$ 的分位数，但是我们可以估计它们。令 $X_1,\ldots,X_n$ 是 $X$ 分布的随机样本且 $Y_1<\cdots<Y_n$ 是顺序统计量，对于 $k=1,\ldots,n,p_k=k/(n+1)$ ，那么 $Y_k$ 是 $\xi_{X,p_k}$ 的一个估计量。相应的cdf $F(z)$ 分位数表示为 $\xi_{Z,p_k}=F^{-1}(p_k)$ ， $Y_k,\xi_{Z,p_k}$ 的图像成为 $q-q$ 图，它描述的是样本的分位数集合与理论cdf为 $F(z)$ 的分位数集合的关系。基于上面的讨论，图像中的线性就表明 $X$ 的cdf的形式为 $F((x-a)/b)$ 。

$X$ 是cdf为 $F(X)$ 的随机变量，对于 $0<p<1$ ，我们用 $\xi_p$ 表示分位数，其中 $F(\xi_p)=p$ ，对于 $X$ 上大小为 $n$ 的样本， $Y_1<Y_2<\cdots<Y_n$ 是顺序统计量，令 $k=[(n+1)p]$ ，那么 $Y_k$ 是 $\xi_{p}$ 的点估计。

我们现在推导 $\xi_p$ 的分布自由置信区间，也就是说 $\xi_p$ 的置信区间雨 $F(x)$ 的任何假设无关，除了连续型外。令 $i<[(n+1)p]<j$ 并考虑顺序统计量 $Y_i<Y_j$ 与事件 $Y_i<\xi_p<Y_j$ ，因为第 $i$ 个统计量 $Y_i$ 小于 $\xi_p$ ，所以至少有 $i$ 个 $X$ 值小于 $\xi_p$ ，进一步因为第 $j$ 个统计量 $Y_j$ 大于 $\xi_p$ ，所有不到 $j$ 个 $X$ 值小于 $\xi_p$ ，现在考虑二项分布的情况，成功的概率为 $P(X<\xi_p)=F(\xi_p)=p$ ，进一步事件 $Y_i<\xi_p<Y_j$ 等价于 $n$ 个独立实验中 $i$ (包含) $j$ (不包含)之间成功，因此

P (Y i < ξ p < Y j) = \sum w = i j - 1 (n w) p w (1 - p) n - w

$P(Y_i<\xi_p<Y_j)=\sum_{w=i}^{j-1}\binom{n}{w}p^w(1-p)^{n-w}$

是至少有 $i$ 但不到 $j$ 次成功的概率。当 $n,i,j$ 都指定后，就能算出这个概率。假设找到了 $\gamma=P(Y_i<\xi_p<Y_j)$ ，那么p分位数落在区间 $(Y_i,Y_j)$ 之间的概率为 $\gamma$ 。如果 $Y_i,Y_j$ 的实验值为 $y_i,y_j$ ，那么 $(y_i,y_j)$ 为 $\xi_p100\gamma$ 的置信区间。