04.第二章抽样分布及若干预备知识(3)

本文链接：https://blog.csdn.net/jingye333/article/details/108524436

本文探讨了统计学中的关键概念，包括Γ分布与B分布的定义与特性，χ2分布及其与Γ分布的关系，ttt分布的推导与性质，以及FFF分布的介绍。通过这些分布，文章还讨论了正态变量与卡方变量之间的联系，以及在未知方差情况下进行均值检验的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第二章抽样分布及若干预备知识(3)

1. $\Gamma$ 分布与 $\Beta$ 分布

在了解 $\Gamma$ 分布与 $\Beta$ 分布之前，要先知道 $\Gamma$ 函数和 $\Beta$ 函数。

$\Gamma$ 函数：定义为 $\Gamma(x)=\int_0^\infty t^{x-1}e^{-t}dt \cdot I_{(x>0)}$ 。

其主要取值为 $\Gamma(1)=\int_0^\infty e^{-t}dt=1,\Gamma(\frac12)=\int_0^\infty t^{-1/2}e^{-t}dt=\sqrt \pi$ 。
余元公式：对于 $0 < s < 1$ ，有 $\Gamma(s)\Gamma(1-s)=\frac{\pi}{\sin{\pi s}}$ ，利用此公式得到 $\Gamma(\frac12)$ 的值。
递归公式： $\Gamma(x+1)=x\Gamma(x)$ ，所以 $\Gamma$ 函数可以看成阶乘在实数域上的延拓。

$\Beta$ 函数：定义为 $\Beta(a,b)=\int_0^1 x^{a-1}(1-x)^{b-1}dx,a>0,b>0$ 。

可以证明 $\Beta(a,b)=\Beta(b,a)$ 。
$\Beta(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$ ，如果 $a, b$ 都是正整数，则有 $\Beta(a,b)=\frac{1}{C_{a+b-2}^{a-1}}$ 。由于已知 $\Beta$ 函数值总是落在0、1之间，所以 $\Gamma(a+b)$ 要在分母的位置。

现在可以给出 $\Gamma$ 分布与 $\Beta$ 分布。

$\Gamma$ 分布：概率密度为 $\Gamma(x;\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}I_{(x>0)}$ ，其决定式为 $x^{\alpha-1}e^{-\lambda x}$ 。

利用 $\Gamma$ 函数可以给出其正则化因子。
$\begin{aligned} &\int_0^\infty x^{\alpha-1}e^{-\lambda x}dx\\ =&\frac1{\lambda^{\alpha-1}}\int_0^\infty (\lambda x)^{\alpha-1}e^{-\lambda x} dx\\ =&\frac1{\lambda^\alpha} \int_0^\infty(\lambda x)^{\alpha-1}e^{-\lambda x}d(\lambda x)\\ =&\frac{\Gamma(\alpha)}{\lambda^\alpha} \end{aligned}$
其正则化因子可以帮助我们很快地找到期望与方差。
可以验证 $\Gamma$ 分布的可加性与可乘性，即 $X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)$ 且独立，则 $X_1+X_2\sim \Gamma(\alpha_1+\alpha_2,\lambda)$ ；若 $X\sim \Gamma(\alpha,\lambda)$ ，则 $kX\sim \Gamma(\alpha,\lambda/k)$ 。
$\Gamma$ 分布的期望为 $EX=\alpha/\lambda$ ，方差为 $\alpha/\lambda^2$ 。

$\Beta$ 分布：概率密度为 $\Beta(x;a,b)=\frac1{\Beta(a,b)}x^{a-1}(1-x)^{b-1}I_{(0<x<1)}$ ，其决定式为 $x^{a-1}(1-x)^{b-1}$ 。

$\Beta$ 分布的正则化因子是显然的。
根据 $\Beta$ 函数与 $\Gamma$ 函数的关系，可以得到期望与方差，分别为
$X\sim \Beta(a,b),EX=\frac a {a+b},DX=\frac{ab}{(a+b)^2(a+b+1)}$

2. $\chi^2$ 分布

$\chi^2$ 分布：设 $X_1,X_2,\cdots,X_n\text{i.i.d.}\sim N(0,1)$ ，则 $\xi=\sum_{i=1}^n X_i^2$ 被称为自由度为 $n$ 的 $\chi^2$ 变量，其分布称为自由度为 $n$ 的 $\chi^2$ 分布，记作 $\xi\sim \chi^2_n$ 。也就是说， $n$ 个独立的标准正态变量平方和构成自由度为 $n$ 的 $\chi^2$ 变量。

$\chi^2$ 分布的概率密度函数如下：
$g_n(x)=\left\{ \begin{array}{l} \frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2},&x>0\\0,&x\le0 \end{array} \right.$
去掉正则化因子，得到 $\chi^2$ 分布的决定式为 $g_n(x)\propto x^{n/2-1}e^{-x/2}I_{(x>0)}$ 。要证明其概率密度函数的形式需要用到球坐标变换。

与 $\Gamma$ 分布对比，可以发现实际上 $\chi^2_n$ 的分布等同于 $\Gamma(\frac{n}2,\frac12)$ 。如果给定 $X\sim \Gamma (\alpha, \lambda )$ ，则 $2\lambda X\sim \Gamma(\alpha,1/2)= \chi^2_{2\alpha}$ ，这就是 $\Gamma$ 分布与 $\chi^2$ 分布的互相转化。

接下来求 $\chi^2$ 变量的一些性质。

$\xi\sim \chi^2_n$ ，则其特征函数为 $\varphi(t)=(1-2it)^{-n/2}$ 。要证明这个结论，可以先找 $\Gamma(\alpha, \lambda)$ 的特征函数，设 $X\sim \Gamma(\alpha, \lambda)$ ，则有
$E(e^{itX})=\frac{\lambda^\alpha}{\Gamma(\alpha)}\int_0^\infty x^{\alpha-1}e^{-\lambda x}e^{itx}dx=(\frac{\lambda}{\lambda-it})^\alpha$
而 $\xi\sim \chi^2_n=\Gamma(n/2,1/2)$ ，代入数据得
$\varphi(t)=(\frac{1/2}{1/2-it})^{n/2}=(1-2it)^{n/2}$
$\xi\sim \chi^2_n$ ，则 $E\xi=n,D\xi=2n$ 。有了 $\Gamma$ 分布的期望与方差就可以代入求。
可加性： $Z_1\sim \chi_{n_1}^2,Z_2\sim \chi_{n_2}^2$ ，则 $Z_1+Z_2\sim \chi^2_{n_1+n_2}$ 。这既可以用特征函数，也可以用 $\Gamma$ 分布的可加性，还可以用 $\chi^2$ 变量的定义来证明。

3. $t$ 分布

$t$ 分布：设有两个相互独立的随机变量 $X\sim N(0,1),Y\sim \chi^2_n$ ，则 $T=\frac{X}{\sqrt{Y/n}}$ 称为自由度为 $n$ 的 $t$ 变量，其分布为自由度为 $n$ 的 $t$ 分布，记作 $T\sim t_n$ 。形式上， $t$ 分布表现为正态分布除以归一化的卡方分布。

$t$ 分布的概率密度函数为 $t_n(x)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac n2)\sqrt{n\pi}}(1+\frac{x^2}{n})^{-(n+1)/2}$ 。其证明用到以下两个引理：

设 $X$ 是一维连续随机变量，概率密度为 $f_X(x)$ ，则 $Y = a X + b$ 的概率密度为 $f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})$ 。
设 $(X, Y)$ 是二维连续随机变量，概率密度为 $f (x, y)$ ，则 $Z = Y / X$ 的概率密度为 $f_z(z)=\int_{-\infty}^\infty |x|f(x,xz)dx$ 。

首先计算 $Y / n$ 的概率密度，由引理1，可以得到
$\begin{aligned} &f_{Y/n}(x)\\ =&\frac{n}{2^{n/2}\Gamma(n/2)}(nx)^{n/2-1}e^{-nx/2}I_{(x>0)}\\ =&\frac{(n/2)^{n/2}}{\Gamma(n/2)}x^{n/2-1}e^{-nx/2}I_{(x>0)} \end{aligned}$
接下来计算 $\sqrt{Y/n}$ 的概率密度，首先有
$F_{\sqrt{(Y/n)}}(y)=P\{\sqrt{Y/n}\leq y\}=P\{Y/n\leq y^2\}=F_{Y/n}(y^2)$
对等式两边同时求导，得
$\begin{aligned} &f_{\sqrt{(Y/n)}}(y)=2yf_{Y/n}(y^2)\\ =&\frac{2y(n/2)^{n/2}}{\Gamma(n/2)}(y^2)^{n/2-1}e^{-ny^2/2}I_{(y>0)}\\ =&\frac{2(n/2)^{n/2}}{\Gamma(n/2)}y^{n-1}e^{-ny^2/2}I_{(y>0)} \end{aligned}$
接下来求 $\frac{X}{\sqrt{Y/n}}$ 的分布，由于 $X, Y$ 独立，所以联合分布为边际分布之乘积，于是
$\begin{aligned} f_T(z)=&\int_{-\infty}^\infty |x|f(x, xz)dx\\ =&\int_{-\infty}^\infty|x|\frac{2(n/2)^{n/2}}{\Gamma(n/2)}x^{n-1}e^{-nx^2/2}I_{(x>0)}\frac{1}{\sqrt{2\pi}}\text{exp}\left\{-\frac{(xz)^2}{2}\right\}dx\\ =&\int_0^\infty \frac{\sqrt2(n/2)^{n/2}}{\sqrt{\pi}\Gamma(n/2)}x^ne^{-\frac{x^2}{2}(n+z^2)}dx \end{aligned}$
整理成这个形式以后，要想办法向 $\Gamma$ 函数靠近，所以令 $u=\frac{x^2}{2}(n+z^2)$ ，就有 $x=\sqrt{\frac{2u}{n+z^2}},dx=\frac{1}{\sqrt {2u(n+z^2)}}du$ ，代入可得
$\begin{aligned} f_T(z)=&\int_0^\infty\frac{\sqrt 2(n/2)^{n/2}}{\sqrt \pi \Gamma(n/2)}\sqrt{\frac{2u}{n+z^2}}^ne^{-u}\frac{1}{\sqrt{2u(n+z^2)}}du\\ =&\int_0^\infty \frac{\sqrt{2^n}(n/2)^{n/2}}{\sqrt {\pi(n+z^2)^{n+1}\Gamma(n/2)}}u^{(n-1)/2}e^{-u}du\\ =&\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}\left(1+\frac{z^2}{n}\right)^{-\frac{n+1}{2}} \end{aligned}$
这就得到 $t$ 分布的概率密度函数。总结以上过程，第一步先求得 $Y / n$ 的分布，然后求 $\sqrt{Y/n}$ 的分布，最后求 $X/\sqrt{Y/n}$ 的分布，过程中用到一些变换引理。

$t$ 分布的一些性质：

若 $T\sim t_n$ ，则 $E(T^r)$ 只有在 $r < n (n > 1)$ 时存在（严格小于），而 $n\geq2$ 时 $E (T) = 0$ ， $n\geq3$ 时 $D (T) = n / (n - 2)$ 。
自由度为1的 $t$ 分布就是柯西分布，柯西分布不存在均值。
$n\to\infty$ 时 $t$ 变量的极限分布是正态分布。

4. $F$ 分布

$F$ 分布：对于两个独立的 $\chi^2$ 变量 $X\sim X_m^2,Y\sim X_n^2$ ，称 $F=\frac{X/m}{Y/n}$ 是自由度为 $m, n$ 的 $F$ 变量，服从自由度为 $m, n$ 的 $F$ 分布，记作 $F\sim F_{m,n}$ 。注意分子的自由度在前。

$F$ 分布的密度函数为 $f_{m,n}(x)=\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac n2)\Gamma(\frac m2)}m^{m/2}n^{n/2}x^{m/2-1}(n+mx)^{-(m+n)/2}$ 。

$F$ 分布的一些性质：

若 $Z\sim F_{m,n}$ ，则 $1/Z\sim F_{n,m}$ 。
若 $T~\sim t_n$ ，则 $T^2\sim F_{1,n}$ 。
若 $Z\sim F_{m,n}$ ，则 $EZ=n/(n-2),n>2;DZ=2n^2(m+n-2)/m(n-2)^2(n-4),n>4$ 。
记 $F_{m,n}(\alpha)$ 为其上 $\alpha$ 分位数。 $F_{m,n}(1-\alpha)=1/F_{n,m}(\alpha)$ 。有了这个性质，我们可以对 $\alpha=0.95,0.99$ 之类的值进行分位数求值。

关于三大分布，最主要的应用在于它们的定义式，以及用作区间估计、假设检验中查分位数表，均值、方差等数字特征并不常用，概率密度函数也并不很重要。

5.一些推论

对于一系列正态变量 $X_1,\cdots,X_n$ ，其中 $X_i\sim N(a_i,\sigma_i^2)$ ，有
$\sum_{i=1}^n\left(\frac{X_i-a_i}{\sigma_i}\right)^2\sim\chi_n^2$
这是联系正态变量与卡方变量的直接方式。

若 $X_1,\cdots,X_n\text{i.i.d}\sim N(a,\sigma^2)$ ，则
$T=\frac{\sqrt n(\bar X-a)}{S}\sim t_{n-1}$
证明如下，因为 $\bar X\sim N(a,\sigma/n)$ ，所以将其标准化后，有
$N_1=\frac{\bar X-a}{\sigma/\sqrt n}\sim N(0,1)$
而 $N_2=(n-1)S^2/\sigma^2\sim \chi^2_{n-1}$ ，所以
$\frac{N_1}{\sqrt{N_2/(n-1)}}=\frac{\sqrt{n}(\bar X-a)}{\sigma}\cdot \sqrt{\frac{\sigma^2}{S^2}}=\frac{\sqrt{n}(\bar X-a)}{S}\sim t_{n-1}$
这常用于一组样本在未知方差情形下的均值检验。

设 $X_1,\cdots,X_m\text{i.i.d.}\sim N(a_1,\sigma^2),Y_1,\cdots,Y_n\text{i.i.d.}\sim N(a_2,\sigma^2)$ ，且两组样本独立，则有
$T=\frac{(\bar X-\bar Y)-(a_1-a_2)}{S_w}\cdot\sqrt{\frac{mn}{m+n}}\sim t_{m+n-2}\\ 其中S_w^2=\frac{1}{m+n-2}[\sum_{i=1}^m(X_i-\bar X)^2+\sum_{j=1}^n(Y_i-\bar Y)^2]$
证明如下，由于 $\bar X\sim N(a_1,\sigma^2/m),\bar Y\sim N(a_2,\sigma^2/n)$ ，所以
$\bar X-\bar Y\sim N\left(a_1-a_2,\left(\sigma\sqrt{\frac{m+n}{mn}}\right)^2\right)\\ N_1=\frac{(\bar X-\bar Y)-(a_1-a_2)}{\sigma\sqrt{\frac{m+n}{mn}}}\sim N(0,1)$
而 $m+n-2)S_w^2=(m-1)S_X^2+(n-1)S_Y^2$ ，由于 $\chi^2$ 分布的可加性，有
$N_2=\frac{(m+n-2)S_w^2}{\sigma^2}\sim \chi^2_{m+n-2}$
所以
$\frac{N_1}{\sqrt{N_2/(m+n-2)}}=\frac{(\bar X-\bar Y)-(a_1-a_2)}{\sigma\sqrt{\frac{m+n}{mn}}}\cdot \frac{\sigma}{S_w}=T\sim t_{m+n-2}$
这常用于两组样本在方差相等但未知的情况下估计均值差异。

设 $X_1,\cdots,X_m\text{i.i.d.}\sim N(a_1,\sigma^2_1),Y_1,\cdots,Y_n\text{i.i.d.}\sim N(a_2,\sigma^2_2)$ ，且两组样本相互独立，则
$F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F_{m-1,n-1}$
适用于检验两个正态样本方差比值的检测。

设 $X_1,\cdots,X_n\text{i.i.d.}\sim f(x,\lambda )=\lambda e^{\lambda x}I_{(0,\infty)}(x)$ ，则有
$2\lambda n \bar X=2\lambda \sum_{i=1}^n\sim \chi^2_{2n}$
只要注意到 $\Gamma(n,\lambda)$ 是 $n$ 个同分布指数分布 $E(\lambda)$ 的和即可，即 $\sum_{i=1}^n X_i=\xi\sim \Gamma(n,\lambda)$ 即可。