t检验全析

最新推荐文章于 2023-02-15 18:21:10 发布

starflyyy

最新推荐文章于 2023-02-15 18:21:10 发布

阅读量265

点赞数

分类专栏：数理统计 R语言

本文链接：https://blog.csdn.net/starflyyy/article/details/97730021

版权

数理统计同时被 2 个专栏收录

3 篇文章 2 订阅

订阅专栏

R语言

2 篇文章 0 订阅

订阅专栏

文章目录

两个分布
- $chi^2$分布
- t分布
三个关键点
一个重点式子
t-检验

两个分布

$chi^2$ 分布

设独立同分布的随机变量 $X_1, X_2, ...X_n \sim N(0, 1)$
令 $\sum\limits_{i = 1}^{n}X_i^2 \qquad (1)$
则称X是自由度为n的 $\chi^2$ 随机变量。

t分布

设 $X\sim N(0 ,1), Y \sim \chi^2(n)$ , 且X,Y独立，称：
$\frac{X}{\sqrt{T/ n}} \qquad (2)$
为自由度为n的t变量，其分布称为自由度为n的t分布。

三个关键点

设独立同分布的随机变量 $X_1, X_2... X_n \sim N(\mu, \sigma^2)$

(3) $\bar{X}\sim N(\mu, \frac{\sigma^2}{n})\qquad$

(4) $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$

(5) $\bar{X}和S^2独立$

一个重点式子

$\frac{\bar X - \mu}{\frac{S}{\sqrt{n}}}\sim t(n-1) \qquad (6)$

由(3)式：
$\frac{\bar{X}- \mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0 ,1) \qquad (3)$
由(4)式，令
$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \qquad (4)$
$\therefore\frac{X}{\sqrt{Y/(n-1)}} \sim t(n-1) \qquad(7)$
代入(3)、(4)式，得:
$\frac{\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}}{\frac{(n-1)S^2}{\sigma^2}/ (n-1)} \sim t(n-1) \qquad(8)$
化简得(6)：
$\frac{\bar{X} - \mu}{\frac{S}{\sqrt{n}}} \sim t(n-1) \qquad$

t-检验

QoG2012.csv 数据集中有一列反映了各个国家的gdp。我们使用这一列数据进行假设检验。
首先要明白的是假设检验是一种反证的方法，也就是

在假定原假设正确的基础上进行推理

原假设( $H_0$ )： $\qquad$ $\mu = 10000$
备择假设( $H_1$ )： $\quad$ $\mu\neq10000$

# 导入readr包
library(readr)
library(dplyr)

# 载入data
world_data = read.csv("D://pdf//ucl//day3//day3//QoG2012.csv")

# 对world_data 进行总结
summary(world_data)

# tansform the judiciary to factor
world_data$judiciary <- factor(world_data$judiciary, levels = c(0, 1), labels = c('controled', 'free'))
#transform the former_col to factor
world_data$former_col <- factor(world_data$former_col, levels = c(0, 1), labels = c('no', 'yes'))

# calculate the mean of gdp
gdp_mean = mean(world_data$gdp, na.rm = TRUE)

[1] 10184.09
在这里， gdp_mean就是公式(6)中 $\bar{X}$

# calculate se
se <- sd(world_data$gdp, na.rm = TRUE) / sqrt(n)
se

[1] 922.7394
在这里，se就是公式(6)中的 $\frac{S}{\sqrt{n}}$

由(6)式：
可以计算得到t.value

t.value <- (gdp_mean - 10000) / se
t.value

[1] 0.1995059

在这里插入图片描述

# p-value calculation
2*(1 - pt(t.value, df = (n-1)))

[1] 0.842
pt 函数是t分布的分布函数，df是自由度，由(6)式，符合t(n-1)分布，所以df =n-1
$\int_{-\infty}^{t.value} t_{(n-1)}(x)dx$
$1 - p t (t . v a l u e, d f = n - 1)$ 是右边的尾部，由于是双侧检验，所以
p-value = 2*(1 - pt(t.value, df = n-1))

与三种显著性标准进行比较，发现p-value很大，比0.05的显著性标准还大。
p-value反映的是：
发生比当前情况更加极端情况的概率
可以发现发生比当前情况极端情况的概率是0.842，也就是说当前情况很容易发生，所以
不能拒绝原假设，也就是说不能够拒绝 $\mu = 10000$

后记：
证明(3):
预备知识：
$E (c X) = c E (X)$
$D(cX) = c^2D(X)$
由： $\bar{X}=\frac{\sum\limits_i^{n}X_i}{n}$
$E(\bar{X})=E(\frac{\sum\limits_i^{n}X_i}{n})$

s $=\frac{1}{n}E(\sum\limits_i^{n}X_i) \qquad(9)$
由于 $X_1, X_2...X_n$ 是独立同分布的正态变量。由期望线性性

所以(9)式可化简为：
$\frac{1}{n}n E(X)$
$\qquad (10)$
而 $\mu$ ,所以 $E(\bar{X})$

$D(\bar{X})$
$D(\frac{\sum\limits_i^{n}X_i}{n})$
$\frac{1}{n^2}D(\sum\limits_i^nX_i)$
$\frac{1}{n^2}nD(X)$
$\frac{1}{n}D(X)$
即证。

starflyyy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
t检验全析

文章目录两个分布$chi^2$分布t分布三个关键点一个重点式子t-检验两个分布chi2chi^2chi2分布设独立同分布的随机变量X1,X2,...Xn∼N(0,1)X_1, X_2, ...X_n \sim N(0, 1)X1,X2,...Xn∼N(0,1)令X=∑i=1nXi2(1)X = \sum\limits_{i = 1}^{n}X_i^2 \qquad (1)X=i=1∑...
复制链接

扫一扫