03.第二章抽样分布及若干预备知识(2)

最新推荐文章于 2021-07-02 10:38:47 发布

江景页

最新推荐文章于 2021-07-02 10:38:47 发布

阅读量391

点赞数 1

分类专栏：《数理统计》学习笔记文章标签：概率论

本文链接：https://blog.csdn.net/jingye333/article/details/108524355

版权

《数理统计》学习笔记专栏收录该内容

21 篇文章 30 订阅

订阅专栏

第二章抽样分布及若干预备知识(2)

1.单个次序统计量的分布

现假设 $X_1,\cdots,X_n$ 是来自总体 $F$ 的简单随机样本， $f$ 是 $F$ 的密度， $(X_{(1)},\cdots,X_{(n)})$ 是其次序统计量。

现在要求第 $k$ 个次序统计量 $X_{(k)}$ 的分布，先求出它的概率密度函数。由于其密度函数 $f_k(x)$ 是分布函数 $F_k(x)$ 的导数，即 $f_k(x)=\lim \limits_{\Delta x\to 0}\frac{F_k(x+\Delta x)-F_k(x)}{\Delta x}$ ，而 $F_k(x+\Delta x)-F_k(x)$ 的含义，是 $X_{(k)}$ 落在小区间 $[x,x+\Delta x]$ 内的概率，我们可以以此入手求密度函数。

现在考虑“第 $k$ 个次序统计量 $X_{(k)}$ 落在无穷小区间”这一事件，找它的等价事件，为“样本 $X_1,\cdots,X_n$ 中，有 $k - 1$ 个落在 $(-\infty, x)$ 内， $1$ 个落在 $[x,x+\Delta x]$ 内， $n - k$ 个落在 $(x+\Delta x,\infty )$ 内”。将样本分成这样的三组一共有 $C_{n}^{k-1}C_{n-k+1}^{1}=\frac{n!}{(n-k)!(k-1)!}$ 种分法。

现在考虑其中的一种分法，即 $X_1,\cdots,X_{k-1}<x<X_k<x+\Delta x<X_{k+1},\cdots,X_n$ 。由于样本的总体分布函数为 $F_X(x)=(F(x))^n$ ，所以这个事件的概率为
$\begin{aligned} &\mathbf P(X_1,\cdots,X_{k-1}<x<X_k<x+\Delta x<X_{k+1},\cdots,X_n)\\ =&[F(x)]^{k-1}[1-F(x+\Delta x)]^{n-k}[F(x+\Delta x)-F(x)] \end{aligned}$
由于一共有 $\frac{n!}{(n-k)!(k-1)!}$ 种分法，所以有
$\begin{aligned} &F_k(x+\Delta x)-F_k(x)\\ =&\frac{n!}{(n-k)!(k-1)!}[F(x)]^{k-1}[1-F(x+\Delta x)]^{n-k}[F(x+\Delta x)-F(x)] \end{aligned}$
接下来就可以求密度函数：
$\begin{aligned} &f_k(x)\\ =&\lim \limits_{\Delta x \to 0} \frac{F_k(x+\Delta x)-F(x)}{\Delta x}\\ =&\frac{n!}{(n-k)!(k-1)!}\lim \limits_{\Delta x\to 0}[F(x)]^{k-1}[1-F(x+\Delta x)]^{n-k}\frac{F(x+\Delta x)-F(x)}{\Delta x}\\ =&\frac{n!}{(n-k)!(k-1)!}[F(x)]^{k-1}[1-F(x)]^{n-k}f(x) \end{aligned}$
这就求得了单个次序统计量的密度函数。

特别地，样本最小值 $X_{(1)}$ 的密度和分布函数是
$f_1(x)=nf(x)[1-F(x)]^{n-1}\\ F_1(x)=1-[1-F(x)]^{n}$
样本最大值 $X_{(n)}$ 的密度和分布函数是
$f_n(x)=nf(x)[F(x)]^{n-1}\\ F_1(x)=[F(x)]^n$

2. $n$ 个次序统计量的联合分布

对于 $n$ 个次序统计量的联合分布，记其密度函数为 $p(x_1,\cdots,x_n)$ ，表达式为
$p(x_1,\cdots, x_n)=\left\{ \begin{array}{l} n!f(x_1)f(x_2)\cdots f(x_n), &x_1<\cdots<x_n;\\ 0,&otherwise. \end{array} \right.$
直观地理解是，由于次序统计量显然是从小到大递增的，因此显然不可能出现 $x_1>x_2,X_{(1)}\in[x_1,x_i+\Delta x_1],X_2\in [x_2, x_2+\Delta x_2]$ 的情况，所以当次序不对时密度为0。其次，将样本次序化，其实就是给样本增加了顺序，抹除了样本本身的无序性，任何一种从小到大的排列现在都有 $n!$ 中实际可能的排列，因此在 $n$ 个样本的联合密度前乘以 $n!$ 。

3.两个次序统计量的联合分布

两个次序统计量的分布比起一个的要稍微复杂一些，现在考虑 $X_{(i)},X_{(j)},i<j$ ，显然不可能出现 $X_{(i)}>X_{(j)}$ 的情况，因此在它们的联合密度 $f_{i,j}$ 中 $i > j$ 处的密度肯定也为0。

对于 $i < j$ 时， $f_{i,j}(x_i,x_j)$ 可以看成 $\frac{\partial^2F_{i,j}(x_i,x_j)}{\partial x_i \partial x_j}$ ，因此类比单次序统计量的情形，我们可以找到事件“ $i - 1$ 个样本落在 $(-\infty,x_i)$ ，1个落在 $(x_i,x_i+\Delta x_i)$ ， $j - i - 1$ 个落在 $(x_i+\Delta x_i,x_j)$ ，1个落在 $(x_j, x_j+\Delta x_j)$ ， $n - j$ 个落在 $(x_j+\Delta x_j,\infty)$ ”。相对应地得到 $f_{i,j}(x_i,x_j)$ 的表达式：
$\begin{aligned} &f_{i,j}(x_i,x_j)\\ =&C_n^{i-1}C_{n-i+1}^1C_{n-i}^{j-i-1}C_{n-j+1}^{1}I_{\{x_i<x_j\}}\\&[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}f(x_i)f(x_j)\\ =&\frac{n!}{(i-1)!(j-i-1)!(n-j)!}I_{\{x_i<x_j\}}\\&[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}f(x_i)f(x_j) \end{aligned}$
这里 $I_A$ 为示性函数，在写分布、密度时不能遗漏。

特别地，对于 $X_{(1)},X_{(n)})$ 的联合密度，可以带入求得
$f_{1,n}(x_1,x_n)=n(n-1)f(x_1)f(x_n)[F(x_n)-F(x_1)]^{n-2}I_{(x_1<x_n)}$

4.极差的分布

极差 $R=X_{(n)}-X_{(1)}$ 的分布要用到随机向量的变换，这里先引入随机向量的变换定理。

设 $X_1,X_2)$ 的密度为 $p(x_1,x_2)$ ，现有两个随机变量，分别为， $Y_1=y_1(X_1,X_2),Y_2=y_2(X_1,X_2)$ ，其密度为 $q(y_1,y_2)$ 。如果这两个函数有唯一的反函数组 $X_1=x_1(Y_1,Y_2),X_2=x_2(Y_1,Y_2)$ ，且
$J=\frac{\partial(x_1,x_2)}{\partial(y_1,y_2)}\neq0$
则有 $q(y_1,y_2)=p(x_1(y_1,y_2), x_2(y_1,y_2))|J|$ 。

这种情况下，令 $R=X_{(n)}-X_{(1)},V=X_{(1)}$ ，则 $X_{(1)}=V,X_{(n)}=R+V$ ， $J=\left|\begin{array}{c}0&1\\1&1\end{array}\right|=-1$ 。代入公式如下：
$p(x_1,x_n)=n(n-1)f(x_1)f(x_n)[F(x_n)-F(x_1)]^{n-2}I_{(x_n>x_1)},\\ x_1(a,b)=b,x_2(a,b)=a+b, \\ \begin{aligned} q(y_1,y_2)&=p(x_1(y_1,y_2),x_2(y_1,y_2))|J|\\ &=n(n-1)f(y_1)f(y_1+y_2)[F(y_1+y_2)-F(y_2)]^{n-2}I_{(y_1>0)} \end{aligned}\\ f_R(y_1)=\int_0^\infty q(y_1,y_2)dy_2.$
这就求得极差的密度 $f_R(x)=\int_0^\infty q(x,y_2)dy_2$ 。

5.均匀分布情形下的次序统计量

（标准）均匀分布： $U(0,1)，f(x)=I_{(0<x\leq1)}，F(x)=xI_{(0<x\leq1)}+I_{(x>1)}$ 。分布函数的意思是
$F(x)=\left\{ \begin{array}{l} 0,&x\leq0,\\ x,&0<x\leq1,\\ 1,&x>1. \end{array} \right.$
从 $U (0, 1)$ 中抽取样本 $(X_1,\cdots,X_n)$ ，次序统计量记为 $X_{(1)},\cdots,X_{(n)}$ ，代入次序统计量的一般公式，可以计算得到
$f_k(x)=\frac{n!}{(n-k)!(k-1)!}x^{k-1}(1-x)^{n-k}I_{(0<x<1)}$
这里有 $X_{(k)}\sim \beta(k, n-k+1)$ 。

均匀分布下极差也是可以求的，将前面的 $q(y_1,y_2)$ 代入均匀分布的相关数据，得到
$q(y_1,y_2)=n(n-1)y_1^{n-2}I_{(0<y_1\leq1)}I_{(0<y_1+y_2\leq1)}I_{(y_1>0)}\\ f_R(x)=\int_0^{1-x} n(n-1)x^{n-2}I_{x>0}dy_2=n(n-1)x^{n-2}(1-x)I_{(x>0)}$
注意，在代入密度函数和分布函数的时候不能漏掉示性函数，在这里示性函数决定了边缘密度式中的积分限，如果漏掉就算不出最终的结果。