学习目标
我们所采用的学习内容来自B站的Lizongzhang老师的R语言的学习分享以及统计分析与spss的应用
今天学习的主要内容是关于
单个总体的t检验
学习内容
下面是学习的主要内容
单个总体的t检验
t检验的目的
t检验是使用某总体的样本数据,推断该总体的均值是否指定的检验值存在显著差异,这是对总体均值的假设检验。
提出原假设
H
0
:
μ
=
μ
0
H_0:\mu=\mu_0
H0:μ=μ0
H
1
:
μ
≠
μ
0
H_1:\mu \ne \mu _0
H1:μ=μ0
注:
- 制定原假设:
H
0
:
ω
=
ω
0
H_0:\omega =\omega _0
H0:ω=ω0和备择假设
H
1
H_1
H1,这里在选择检验方法的时候有一个小方法帮助大家选择:
– 如果是 H 1 : ω > ω 0 H_1:\omega >\omega _0 H1:ω>ω0,那么选择的就是右侧检验
– 如果 H 1 : ω < ω 0 H_1:\omega <\omega _0 H1:ω<ω0,那么选择的检验就是左侧检验
– 如果 H 1 : ω ≠ ω 0 H_1:\omega \ne \omega _0 H1:ω=ω0,那么假设检验就是选择使用双侧检验
选择检验统计量
希望利用样本均值去估计总体均值
当总体分布为正态分布
N
(
μ
,
σ
2
)
N\left( \mu ,\sigma ^2 \right)
N(μ,σ2)的时候,样本均值
X
ˉ
\bar{X}
Xˉ的抽样分布仍然为正态分布,及
X
ˉ
∼
N
(
μ
,
σ
2
n
)
\bar{X}\sim N\left( \mu ,\frac{\sigma ^2}{n} \right)
Xˉ∼N(μ,nσ2)
其中
μ
\mu
μ表示总体均值,
σ
2
\sigma^2
σ2表示总体方差,
n
n
n为样本量,在样本
n
n
n足够大的情况下,根据中心极限定理可知样本均值也服从上述的正态分布.进一步的对
X
ˉ
\bar{X}
Xˉ进行标准化,可以得到
Z
=
X
ˉ
−
μ
σ
2
n
Z=\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma ^2}{n}}}
Z=nσ2Xˉ−μ
在总体方差位置的情况下,用样本方差
S
2
S^2
S2替代总体方差,可以得到
t
t
t统计量
Z
=
X
ˉ
−
μ
S
2
n
Z=\frac{\bar{X}-\mu}{\sqrt{\frac{S^2}{n}}}
Z=nS2Xˉ−μ
t
t
t统计量服从n-1自由度的
t
t
t分布(n-1的自由度是为了更好的做到无偏估计)
在一般情况下因为总体方差是未知的,所以一般情况下都是使用单样本的
t
t
t检验
计算检验统计量的观测值和概率P-值
计算检验统计量的观测值和对应的概率 P − P- P−值,计算得到相应的 t t t统计量,然后得到对应的双侧概率P-值,便于下一步的检验
给定显著性水平 α \alpha α做出决策
给定显著性水平
α
\alpha
α,这个值可以根据题目以及自身的判断给出相应的值的大小,一般情况下
α
\alpha
α的取值是
0.10
,
0.05
,
0.01
0.10,0.05,0.01
0.10,0.05,0.01这三个值进行选择,然后根据上一步计算得到的
P
P
P值与
α
\alpha
α进行比较
如上图,那么可以根据
α
\alpha
α 的大小划分接受域和拒绝域,若P值落在拒绝域则拒绝原假设,反之则接受原假设
具体使用案例
因为在下载老师数据对应的数据有一定的麻烦,就直接根据视频里的进行手动的敲入
#单个总体均值的T检验
#某周电子元件的寿命x服从正态分布,观测其16只元件的寿命
a<-c(159,280,101,212,224,379,179,264,
222,362,168,250,149,260,485,170)
mean(a)#求出样本均值
sd(a)
t.test(a,mu=225,alternative =c("greater") )
#当做单侧检验的时候要写greater,双侧检验可以不写
#conf.level=0.95可以不写,但是如果是其他的置信水平就要进行更改
t.start<-(mean(a)-225)/(sd(a)/sqrt(16))
t.start
p.value<-1-pt(t.start,15)
p.value
对应的输出对象如下:
在这种情况下一般不拒绝原假设
具体使用情况2
根据书本统计分析与spss的应用上的具体案例:推断信用卡刷卡金额的平均值是否低于3000,进行检验
library(readxl)
credit_card<- read_excel("信用卡刷卡.xlsx",col_types = c("numeric"))
View(credit_card)
colMeans(credit_card)
sqrt(var(credit_card))
t.test(credit_card,mu=3000,alternative =c("greater") )
根据这个置信区间我们就可以知道要拒绝原假设,所以我们有95%的把握认为月刷卡是不低于3000元的
内容小结
在这里大家主要是主要到如何通过原假设和备择假设来判断应该使用双侧检验,还是双侧检验