t分布

最新推荐文章于 2024-05-26 18:47:31 发布

Emma_bbb

最新推荐文章于 2024-05-26 18:47:31 发布

阅读量4.6k

点赞数 2

本文链接：https://blog.csdn.net/weixin_43174621/article/details/85953716

版权

t分布

如果有一点点的统计学基础都知道，t分布和 $\chi^2$ 分布有着密不可分的联系，t随机变量的构造是基于 $\chi^2$ 随机变量的。

设随机变量 $X_1$ 与 $X_2$ 独立， $X_1\sim N(0,1)$ , $X_2\sim \chi^2(n)$ , 则 $t=\frac{X_1}{\sqrt{X_2/n}}\sim t(n)$ .

已经知道 $\chi^2$ 分布是 $G a m m a$ 分布的特例，那么 $t$ 的密度函数一定也是与 $\Gamma$ 函数密切相关的，通过令 $t^2=F(1,n)$ 以及根据 $t$ 分布的对称性，可以求出 $t$ 的密度函数, 求 $t$ 密度函数的过程如下：
将 $P(0<t<y)=\frac{1}{2}P({t^2}<{y^2})=\frac{1}{2}P(F<y^2)$ 两边求导，得 $f_t(y)=yf_F(y^2).$

1 $\frac{\sqrt n(\overline{x}-\mu)}{s}$ 服从 $t$ 分布

$t$ 分布的峰比标准正态分布略低一些，尾部比标准正态分布的大一些。是由英国统计学家Gosset发现，由Fisher完善的。当数据量很大时，根据中心极限定理，总是可以将统计量归结到正态分布。但当数据量较小时，就与正态分布产生偏差。Gosset发现 $\frac{\sqrt n(\overline{x}-\mu)}{s}$ 并不是完全服从正态分布的，而是服从一种全新的分布 – $t$ 分布。由于上面已经介绍了 $t$ 分布的定义，下面证明统计量 $\frac{\sqrt n(\overline{x}-\mu)}{s}$ 服从 $t$ 分布。

设 $x_1,x_2,...,x_n$ 是来自总体 $N(\mu,\sigma^2)$ 的样本， $s^2$ 是样本标准差，则有： $\frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1).$
构造一个矩阵 $A$ ，将 $x_1,x_2,...,x_n)$ 正交变换为 $y_1,y_2,...,y_n)$ ，即：

$Y=(y_1,y_2,...,y_n)'=A(x_1,x_2,...,x_n)'=AX$

$=\left( \begin{array}{} \frac{1}{\sqrt n}& \frac{1}{\sqrt n}& \frac{1}{\sqrt n}&...&\frac{1}{\sqrt n} \\ \frac{1}{\sqrt{2\cdot1}}& -\frac{1}{\sqrt{2\cdot1}} & 0&...&0 \\ \frac{1}{\sqrt{3\cdot2}}& \frac{1}{\sqrt{3\cdot2}} &- \frac{2}{\sqrt{3\cdot2}}&...&0\\ \vdots&\vdots&\vdots&\vdots&\vdots\\ \frac{1}{\sqrt{n\cdot(n-1)}}&\frac{1}{\sqrt{n\cdot(n-1)}}&\frac{1}{\sqrt{n\cdot(n-1)}}&...&-\frac{n-1}{\sqrt{n\cdot(n-1)}}\\ \end{array} \right)_{n\times n}$
则有 $y_1=\frac{1}{\sqrt{n}}\sum\limits_{i=0}^nx_i$ ，即 $\overline{x}=\frac{1}{\sqrt{n}}y_1$ ，所以有：
$(n-1)s^2=\sum\limits_{i=0}^n(x_i-\overline{x})^2 =\sum\limits_{i=1}^nx_i^2-n\overline{x}^2 =X'X-y_1^2$ $~~~~~~~=X'A'AX-y_1^2 =Y'Y-y_1^2 =\sum\limits_{i=2}^ny_i^2$
由于 $x_1,x_2,...,x_n$ 均服从 $N(\mu,\sigma^2)$ ， $y_1,y_2,...,y_n$ 是 $x_1,x_2,...,x_n$ 的线性组合，所以 $y_1,y_2,...,y_n$ 也服从正态分布，其中 $y_1\sim N(\sqrt{n}\mu,\sigma^2)$ ， $y_2,...,y_n\sim N(0,\sigma^2)$ , 根据多元正态分布的密度函数表达式容易得出 $y_2,...,y_n$ 也是互相独立的。可得：
$\frac{(n-1)s^2}{\sigma^2}=\sum\limits_{i=2}^n(\frac{y_i}{\sigma})^2\sim\chi^2(n-1).$
又由于 $\overline{x}$ 和 $s^2$ 独立 ( $\overline{x}$ 只与 $y_1$ 有关， $s^2$ 只与 $y_2,...,y_n$ 有关)，则：

$\frac{\sqrt n(\overline{x}-\mu)}{s}=\frac{{\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}}} {\sqrt{\frac{{(n-1)s^2}/{\sigma^2}}{n-1}}}\sim t(n-1)$
证明完毕。

2 比较期望的t检验

在正态总体的参数假设检验中，t检验是经常使用的一种检验方法，使用t检验可以

检验总体期望与某一个常数是否有显著差异（样本均数与总体均数的比较）
检验两个独立总体的总体期望是否有显著差异（两独立样本均数的比较）
检验两个相关总体的总体期望是否有显著差异（两相关样本均数的比较）

下面用两独立样本均数的比较做例子解释一下统计量 $\frac{\sqrt n(\overline{x}-\mu)}{s}$ 的应用。

口服多糖铁复合物是治疗肾性贫血的传统方法，为研究右旋糖酐氢氧化铁注射液在治疗肾性贫血的效果，选择血红蛋白水平相似的患者随机分为口服多糖铁复合物组和静脉注射右旋糖酐氢氧化铁组，每组分别 $n_1,n_2$ 个人，在接受治疗后，收集每个患者血红蛋白含量的增值。口服多糖铁复合物组患者的血红蛋白含量的增值记为 ( $x_1,x_2,...,x_{n_1}$ );静脉注射右旋糖酐氢氧化铁组患者的血红蛋白含量的增值记为 $y_1,y_2,...,y_{n_2})$ 。

可以把( $x_1,x_2,...,x_{n_1}$ )看作来自总体 $X$ ，把 $y_1,y_2,...,y_{n_2})$ 看作来自总体 $Y$ , 即：

$X\sim N(\mu_1,\sigma^2)~~~~~Y\sim N(\mu_2,\sigma^2)$

从而有：

$\overline{x}\sim N(\mu_1,\frac{\sigma^2}{n_1})~~~~~~~\overline{y}\sim N(\mu_2,\frac{\sigma^2}{n_2})$

由于服从正态分布的随机变量的线性组合也服从正态分布，所以有：

$\overline{x}-\overline{y}\sim N(\mu_1-\mu_2,\frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2})$
即：
$\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim N(0,1)$
构造统计量 $\frac{\sqrt n(\overline{x}-\mu)}{s}$ ：

$\frac{(n_1-1)s_1^2}{\sigma^2}+\frac{(n_2-1)s_2^2}{\sigma^2}\sim\chi^2(n_1+n_2-2)$
$\frac{\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} {\sqrt{\frac{\frac{(n_1-1)s_1^2}{\sigma^2}+\frac{(n_2-1)s_2^2}{\sigma^2}}{(n_1+n_2-2)}}}= \frac{\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} {\sqrt{\frac{{(n_1-1)s_1^2}+{(n_2-1)s_2^2}}{(n_1+n_2-2)}}}$
$=\frac{{\overline{x}-\overline{y}-(\mu_1-\mu_2)}} {\sqrt{\frac{\sum_{i=1}^{n_1}(x_i-\overline x)^2+\sum_{i=1}^{n_2}(y_i-\overline{y})^2}{(n_1+n_2-2)}} {\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} ~~~~~~~~~~~~~~~$
$=\frac{{\overline{x}-\overline{y}-(\mu_1-\mu_2)}} { {\sqrt{s_c^2(\frac{1}{n_1}+\frac{1}{n_2})}}}\sim t(n_1+n_2-2)~~~~~~~~~~~~~$

3 线性模型中单个变量的显著性检验

多元线性模型 (p个变量，n个样本) 的表达式为：
$Y_i=\beta^T x_i+\epsilon_i$
在这里将 $Y_i$ 与 $\epsilon_i$ 视为随机变量。
$E(Y_i)=E(Y_i|x_i)=\beta^T x_i=\mu_i$
即：
$Y_i=\mu_i+\epsilon_i$

记 $X_{n\times (p+1)}$ 为样本阵，则有：
$Y=X\beta+\epsilon=\mu+\epsilon$
再使用最小化残差平方和的方法求 $\hat\beta$ :
$\hat\beta=(X^TX)^{-1}X^TY$
然后有：
$\hat Y=\hat \mu=X\hat\beta=X\hat\beta=X(X^TX)^{-1}X^TY=HY$
$H$ 是对称阵，也是幂等阵，且 $tr(H)=tr(X(X^TX)^{-1}X^T)=p+1，$ 记 $H=(h_{ij})$ 。

记 $e=Y-\hat Y=(I-H)Y，e_i=Y_i-\hat Y_i，$ 所以：
$E(\hat{\sigma^2})=E(\frac{1}{n-p-1}\sum\limits_{i=1}^{n}e_i^2)=\frac{1}{n-p-1}\sum\limits_{i=1}^{n}((Ee_i)^2+De_i)$
$~~~~~~~~~~~~~~~~~~=\frac{1}{n-p-1}\sum\limits_{i=1}^{n}(1-h_{ii})\sigma^2=\frac{1}{n-p-1}(n-(p+1))\sigma^2=\sigma^2$
即 $\hat{\sigma^2}=\frac{1}{n-p-1}\sum\limits_{i=1}^{n}e_i^2$ 是 $\sigma^2$ 的无偏估计。

假定 $\epsilon\sim N(0,\Sigma_0)~~~~\Sigma_0=\left( \begin{array}{ccc} \sigma^2 & 0 & ...&0 \\ 0 & \sigma^2 & ...&0 \\ \vdots & \vdots &\vdots&\vdots\\ 0 & 0 & ...&\sigma^2 \\ \end{array} \right)$ ，则 $Y\sim N(\mu,\Sigma_0)$ . 然后有：

$E(\hat\beta)=\beta$
$D(\hat\beta)=D((X^TX)^{-1}X^TY)=(X^TX)^{-1}X^TD(Y)X(X^TX)^{-1}=\sigma^2(X^TX)^{-1}$
又因为 $\hat\beta$ 是 $Y_i$ 的线性组合，所以：
$\hat\beta\sim N(\beta,\sigma^2(X^TX)^{-1})$
再记 $X^TX)^{-1}=(k_{ij}),$ 所以有：
$\hat\beta_i\sim N(\beta_i,\sigma^2k_{ii})$
对 $\beta_i$ 进行显著性检验，原假设为系数 $\beta_i$ 不显著，即：
$H_0:\beta_i=0$
记 $\hat\sigma=\sqrt{\hat{\sigma^2}}$ ，在原假设成立的条件下，就可以构造 $t$ 统计量：
$t_i=\frac{\hat\beta_i}{\sqrt{k_{ii}}\hat\sigma}\sim t(n-p-1)$

Emma_bbb

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
t分布

t分布如果有一点点的统计学基础都知道，t分布和χ2\chi^2χ2分布有着密不可分的联系，t随机变量的构造是基于χ2\chi^2χ2随机变量的。设随机变量X1X_1X1与X2X_2X2独立，X1∼N(0,1)X_1\sim N(0,1)X1∼N(0,1), X2∼χ2(n)X_2\sim \chi^2(n)X2∼χ2(n), 则t=X1X2/n∼t(n)t=\frac{X_1}{\sq...
复制链接

扫一扫