t检验全析

两个分布

c h i 2 chi^2 chi2分布

设独立同分布的随机变量 X 1 , X 2 , . . . X n ∼ N ( 0 , 1 ) X_1, X_2, ...X_n \sim N(0, 1) X1,X2,...XnN(0,1)
X = ∑ i = 1 n X i 2 ( 1 ) X = \sum\limits_{i = 1}^{n}X_i^2 \qquad (1) X=i=1nXi2(1)
则称X是自由度为n的 χ 2 \chi^2 χ2随机变量。

t分布

X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X\sim N(0 ,1), Y \sim \chi^2(n) XN(0,1),Yχ2(n), 且X,Y独立,称:
T = X T / n ( 2 ) T = \frac{X}{\sqrt{T/ n}} \qquad (2) T=T/n X(2)
为自由度为n的t变量,其分布称为自由度为n的t分布。

三个关键点

设独立同分布的随机变量 X 1 , X 2 . . . X n ∼ N ( μ , σ 2 ) X_1, X_2... X_n \sim N(\mu, \sigma^2) X1,X2...XnN(μ,σ2)

(3) X ˉ ∼ N ( μ , σ 2 n ) \bar{X}\sim N(\mu, \frac{\sigma^2}{n})\qquad XˉN(μ,nσ2)

(4) ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ2(n1)S2χ2(n1)

(5) X ˉ 和 S 2 独 立 \bar{X}和S^2独立 XˉS2

一个重点式子

X = X ˉ − μ S n ∼ t ( n − 1 ) ( 6 ) X = \frac{\bar X - \mu}{\frac{S}{\sqrt{n}}}\sim t(n-1) \qquad (6) X=n SXˉμt(n1)(6)

由(3)式:
X ˉ − μ σ n ∼ N ( 0 , 1 ) ( 3 ) \frac{\bar{X}- \mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0 ,1) \qquad (3) n σXˉμN(0,1)(3)
由(4)式, 令
Y = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) ( 4 ) Y = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \qquad (4) Y=σ2(n1)S2χ2(n1)(4)
∴ X Y / ( n − 1 ) ∼ t ( n − 1 ) ( 7 ) \therefore\frac{X}{\sqrt{Y/(n-1)}} \sim t(n-1) \qquad(7) Y/(n1) Xt(n1)(7)
代入(3)、(4)式,得:
X ˉ − μ σ n ( n − 1 ) S 2 σ 2 / ( n − 1 ) ∼ t ( n − 1 ) ( 8 ) \frac{\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}}{\frac{(n-1)S^2}{\sigma^2}/ (n-1)} \sim t(n-1) \qquad(8) σ2(n1)S2/(n1)n σXˉμt(n1)(8)
化简得(6):
X ˉ − μ S n ∼ t ( n − 1 ) \frac{\bar{X} - \mu}{\frac{S}{\sqrt{n}}} \sim t(n-1) \qquad n SXˉμt(n1)

t-检验

QoG2012.csv 数据集中有一列反映了各个国家的gdp。我们使用这一列数据进行假设检验。
首先要明白的是假设检验是一种反证的方法,也就是

在假定原假设正确的基础上进行推理

原假设( H 0 H_0 H0): \qquad μ = 10000 \mu = 10000 μ=10000
备择假设( H 1 H_1 H1): \quad μ ≠ 10000 \mu\neq10000 μ̸=10000

# 导入readr包
library(readr)
library(dplyr)
# 载入data
world_data = read.csv("D://pdf//ucl//day3//day3//QoG2012.csv")
# 对world_data 进行总结
summary(world_data)
# tansform the judiciary to factor
world_data$judiciary <- factor(world_data$judiciary, levels = c(0, 1), labels = c('controled', 'free'))
#transform the former_col to factor
world_data$former_col <- factor(world_data$former_col, levels = c(0, 1), labels = c('no', 'yes'))
# calculate the mean of gdp
gdp_mean = mean(world_data$gdp, na.rm = TRUE)

[1] 10184.09
在这里, gdp_mean就是公式(6)中 X ˉ \bar{X} Xˉ

# calculate se
se <- sd(world_data$gdp, na.rm = TRUE) / sqrt(n)
se

[1] 922.7394
在这里,se就是公式(6)中的 S n \frac{S}{\sqrt{n}} n S

由(6)式:
可以计算得到t.value

t.value <- (gdp_mean - 10000) / se
t.value

[1] 0.1995059

在这里插入图片描述

# p-value calculation
2*(1 - pt(t.value, df = (n-1)))

[1] 0.842
pt 函数是t分布的分布函数,df是自由度,由(6)式,符合t(n-1)分布,所以df =n-1
p t ( t . v a l u e , d f = n − 1 ) = ∫ − ∞ t . v a l u e t ( n − 1 ) ( x ) d x pt(t.value, df = n -1) = \int_{-\infty}^{t.value} t_{(n-1)}(x)dx pt(t.value,df=n1)=t.valuet(n1)(x)dx
1 − p t ( t . v a l u e , d f = n − 1 ) 1 - pt(t.value, df = n-1) 1pt(t.value,df=n1) 是右边的尾部,由于是双侧检验,所以
p-value = 2*(1 - pt(t.value, df = n-1))

与三种显著性标准进行比较,发现p-value很大,比0.05的显著性标准还大。
p-value反映的是:
发生比当前情况更加极端情况的概率
可以发现发生比当前情况极端情况的概率是0.842, 也就是说当前情况很容易发生,所以
不能拒绝原假设,也就是说不能够拒绝 μ = 10000 \mu = 10000 μ=10000

后记:
证明(3):
预备知识:
E ( c X ) = c E ( X ) E(cX) = cE(X) E(cX)=cE(X)
D ( c X ) = c 2 D ( X ) D(cX) = c^2D(X) D(cX)=c2D(X)
由: X ˉ = ∑ i n X i n \bar{X}=\frac{\sum\limits_i^{n}X_i}{n} Xˉ=ninXi
E ( X ˉ ) = E ( ∑ i n X i n ) E(\bar{X})=E(\frac{\sum\limits_i^{n}X_i}{n}) E(Xˉ)=E(ninXi)

s = 1 n E ( ∑ i n X i ) ( 9 ) =\frac{1}{n}E(\sum\limits_i^{n}X_i) \qquad(9) =n1E(inXi)(9)
由于 X 1 , X 2 . . . X n X_1, X_2...X_n X1,X2...Xn是独立同分布的正态变量。由期望线性性

所以(9)式可化简为:
1 n n E ( X ) \frac{1}{n}n E(X) n1nE(X)
= E ( X ) ( 10 ) =E(X) \qquad (10) =E(X)(10)
E ( X ) = μ E(X) = \mu E(X)=μ,所以 E ( X ˉ ) E(\bar{X}) E(Xˉ)

D ( X ˉ ) D(\bar{X}) D(Xˉ)
= D ( ∑ i n X i n ) = D(\frac{\sum\limits_i^{n}X_i}{n}) =D(ninXi)
= 1 n 2 D ( ∑ i n X i ) = \frac{1}{n^2}D(\sum\limits_i^nX_i) =n21D(inXi)
= 1 n 2 n D ( X ) = \frac{1}{n^2}nD(X) =n21nD(X)
= 1 n D ( X ) = \frac{1}{n}D(X) =n1D(X)
即证。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值