t检验

7 篇文章 3 订阅

基于R实现统计中的检验方法—T检验

p值是指在原假设为真的条件下,样本数据拒绝原假设这样一个事件发生的概率。
t检验,有三种常用场景:a.单一样本t检验、b.配对样本t检验、c.独立样本t检验

单一样本t检验:比较样本的情况和总体的情况有无差异

例如,现在有广州市的平均身高,现在我在天河区随机抽取100个人,看看天河的100个人和广州的平均身高有无差异。
配对样本t检验:比较样本某个状况前后的对比有无差异

例如,现在有10个糖尿病的病人,给他们都用同种控制糖尿病的药物,看看这组病人在用药前和用药后有无差异

注:每个病人用药前后各自配对成一对,所以叫配对样本
独立样本t检验:比较两组样本有无差异

例如,现在有10男一组,10女一组,看看这不同性别的身高有无差异
① 样本满足正态分布

统计检验方法中,有一些是基于正态分布的统计检验方法,如本文要介绍的 T 检验,有些是不需要关注其分布情况的,如 KS,秩和检验。所以 t 检验的第一个条件是样本服从正态分布。

(当样本数少于30时,需要检验满足正态分布,若数量较多,根据中心极限定律,样本会趋向正态分布)

② 样本方差齐次性

做 t 检验之前,需要进行方差齐次性的验证,因 t 检验是基于正态总体之上的,正态总体的分布服从N(μ,σ^2),即标准差和均值定了,那分布也就确定了。

标准差确定了离散程度,均值确定了集中趋势,离散程度定了,比较集中趋势是否一致,就能比较两个总体的差异程度。

所以,在做 t 检验之前,需要做方差齐次性检验,一般用F检验,后面有机会会讲,如果方差非齐次性,则用Welch - t检验

  1. 该使用单侧t检验还是双侧t检验?

单侧 t 检验:

当我们想验证某一结果是否比另一结果是否更好或者更坏,我们使用单侧 t 检验

例如,男生的身高是不是比女生的身高更高?

这个时候就用单侧 t 检验去做假设检验。

双侧 t 检验:

当我们想验证某一结果,与某一结果对比是否有区别,我们使用双侧 t 检验

例如,男生的身高是不是和女生的身高有所区别?
4. 检验的步骤

统计检验的步骤一般是三板斧:a.建立假设;b.验证检验;c.接受/拒绝假设

建立假设

一般先看看假设结果,设定原假设 H0,备择假设 H1,H0是和你要的假设反着来,H1是你要证明的假设。

如,要证明男生比女生是否更高?

H0:男生身高不必女生高;H1:男生身高比女生高;

验证检验

一般通过统计检验会得到对应的值,并换算成p值,也就是传说中的统计p值,一般取0.05为检验水准,即标杆。

通过建立假设,我们此时要做的事情就是验证H0发生的概率,假设H0发生的可能性p值小于5%,则表明H0很难发生。

根据上述不同的 t 检验,得到不同的 t 值,需要根据自由度查阅 t 值对应的 p 值。

接受/拒绝假设

根据p值,若p值小于0.05,拒绝原假设H0,反之,接受原假设H0。

本章就介绍到这里,后续再分享如何实现,如何看结果。

单侧检验:
0.05

双侧t检验:《只要一边的面积小于0.025,就是p的一半,t小于或者大于某个值就可以了。p一般还是计算按照0.05比较)

。。。。。。。

z检验用于检验正态样本均值是否等于某个假设值,不过需要事先知道总体方差,得到的统计量服从正态分布,有的教材上又叫u检验。

t检验与z检验相似,t检验不需要知道总体方差,它用样本方差替代总体方差,得到的统计量服从t分布。实践应用中,t检验比z检验常用,因为不容易知道总体的方差。

作者:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据。
本部分内容分五块:主要描述T检验、F检验、卡方检验( χ^{2} 检验),μ检验(又称Z检验),方差分析。其中T检验主要应用于小样本资料,F检验主要对于方差齐性或方差同质性进行检验,卡方检验主要应用于适合性检验、独立性检验和方差同质性检验,μ检验主要应用于大样本资料或方差已知的资料,方差分析(均数差异的显著性检验)主要应用于两个及两个以上样本均数差别的显著性检验。

前言

T检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
1.适用条件
已知一个总体均数;可得到一个样本均数及该样本标准差;样本来自正态或近似正态总体。

备注:若是单独样本T检验,必须给出一个标准值或总体均值,同时,提供一组定量的观测结果,应用t检验的前提条件是该组资料必须服从正态分布;若是配对样本T检验,每对数据的差值必须服从正态分布;若是独立样本T检验,个体之前相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。后面的方差分析,其独立样本T检验的前提条件是相同的,即正态性额方差齐性。(参考:t检验和方差分析的前提条件及应用误区_百度文库(链接见文末)说的非常详细)

2.分类
单总T检验(单独样本T检验),双总T检验(一是独立样本T检验,另一是配对样本T检验)

备注:单独样本T检核与独立样本T检验的区别。单独样本T检验(One-Samples T Test)用于进行样本所在总体均数与已知总体均数的比较,独立样本T检验(Independent-Samples T Test)用于进行两样本均数的比较。

③R实例

—————————#单样本T检验#——————————————
#某鱼塘水的含氧量多年平均值为4.5mg/L,现在该鱼塘设10点采集水样,测定水中含氧量(单位:mg/L)分别为:
#4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26,问该次抽样的水中含氧量与多年平均值是否有显著差异?
Sites<-c(4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26)

Sites<-c(4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26)
t.test(Sites,mu=4.5)

One Sample t-test

data: Sites
t = -0.93574, df = 9, p-value = 0.3738
alternative hypothesis: true mean is not equal to 4.5
95 percent confidence interval:
4.230016 4.611984
sample estimates:
mean of x
4.421

p=0.3738>0.05,认为所抽样水体的含氧量与多年平均值无显著差异

—————————#独立样本T检验#——————————————
#有两种情况,一种是两个总体方差齐性,另一种是两个总体方差不齐。
#方差齐性时直接使用独立样本T检验,当两样本方差不齐时,使用t′检验,t′检验用于两组间方差不齐时,t′检验的计算公式实际上是方差不齐时t检验的校正公式。

#################两样本方差齐性
#用高蛋白和低蛋白两种饲料饲养1月龄的大白鼠,饲养3个月后,测定两组大白鼠的增重量(g),两组数据分别如下所示:
#高蛋白组:134,146,106,119,124,161,107,83,113,129,97,123
#低蛋白组:70,118,101,85,107,132,94
#试问两种饲料养殖的大白鼠增重量是否有显著差异?

High<-c(134,146,106,119,124,161,107,83,113,129,97,123)
Low<-c(70,118,101,85,107,132,94)
Group<-c(rep(1,12),rep(0,7))#1表示High,0表示Low
x<-c(High,Low)
DATA<-data.frame(x,Group)
DATA G r o u p &lt; − a s . f a c t o r ( D A T A Group&lt;-as.factor(DATA Group<as.factor(DATAGroup)

F检验(又称为方差齐性检验)主要对于方差齐性或方差同质性进行检验。

二、F检验

F检验又叫方差齐性检验,在第一篇T检验中说明T检验分为单样本T检验,双总T检验(一是独立样本T检验,另一个是配对样T检验),其中独立样本T检验前需要进行方差齐性检验,F检验的功能就是进行方差齐性检验。第一篇参考链接:parkson:基于R实现统计中的检验方法—T检验

①适用条件

从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t’检验或变量变换或秩和检验等方法。其中要判断两总体方差是否相等,就可以用F检验。简单说,检验两个样本的方差是否具有显著性差异(F检验),这是选择何种独立样本T经验(方差齐时选择一种T检验方法,方差不齐时选择一种T检验方法)的前提条件。

备注:F检验是方差齐性检验,R中有不同的算法去实验F检验。即bartlett.test方差齐性检验、var.test方差齐性检验、leveneTest方差齐性检验这三种都是实现F检验的方法。(比如你打算去北京,你可以选择飞机,动车, 汽车,自行车,步行,甚至爬行等这些都可以抵达北京,虽然不交通工具不一样,但是一个目的到达北京)。

Reference:

[1]顾志峰,叶乃好,石耀华.实用生物统计学[M].北京:科学出版社,2012年.

#bartlett.test方差齐性检验
bartlett.test(x~Group)

Bartlett test of homogeneity of variances

data: x by Group
Bartlett’s K-squared = 0.0066764, df = 1, p-value = 0.9349

#var.test方差齐性检验
var.test(x~Group)

F test to compare two variances

data: x by Group
F = 0.94107, num df = 6, denom df = 11, p-value = 0.9917
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.2425021 5.0909424
sample estimates:
ratio of variances
0.941066

High<-c(134,146,106,119,124,161,107,83,113,129,97,123)
Low<-c(70,118,101,85,107,132,94)
Group<-c(rep(1,12),rep(0,7))#1表示High,0表示Low
x<-c(High,Low)
DATA<-data.frame(x,Group)
DATA G r o u p &lt; − a s . f a c t o r ( D A T A Group&lt;-as.factor(DATA Group<as.factor(DATAGroup)
#leveneTest方差齐性检验(也是SPSS的默认方差齐性检验方法)

install.packages(“car”)

library(car)##主要作用是引入这个包的这个检验方法
leveneTest(DATA x , D A T A x,DATA x,DATAGroup)
Levene’s Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 1 0.0088 0.9264
17
#前两者是对原始数据的方差进行检验的,leveneTest是对方差模型的残差进行组间齐性检验.一般认为是要求残差的方差齐,所以一般的统计软件都做的是leveneTest
#结果说明两独立样本数据方差齐性,可以进行独立样本T检验。

t.test(High,Low,paired=FALSE)

Welch Two Sample t-test

data: High and Low
t = 1.9319, df = 13.016, p-value = 0.07543
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.263671 40.597005
sample estimates:
mean of x mean of y
120.1667 101.0000

结果表明两种饲料养殖的大白鼠增重量无显著差异。

#################两样本方差不齐######

t′检验用于两组间方差不齐时,t′检验的计算公式实际上是方差不齐时t检验的校正公式。

#有人测定了甲乙两地区某种饲料的含铁量(mg/kg),结果如下:
#甲地:5.9,3.8,6.5,18.3,18.2,16.1,7.6
#乙地:7.5,0.5,1.1,3.2,6.5,4.1,4.7
#试问这种饲料含铁量在两地间是否有显著差异?

JIA<-c(5.9,3.8,6.5,18.3,18.2,16.1,7.6)
YI<-c(7.5,0.5,1.1,3.2,6.5,4.1,4.7)
Content<-c(JIA,YI)
Group<-c(rep(1,7),rep(2,7))#1表示甲地,2表示乙地
data<-data.frame(Content,Group)
data G r o u p &lt; − a s . f a c t o r ( G r o u p ) d a t a C o n t e n t G r o u p 15.9123.8136.51418.31518.21616.1177.6187.5290.52101.12113.22126.52134.12144.72 d a t a Group&lt;-as.factor(Group) data Content Group 1 5.9 1 2 3.8 1 3 6.5 1 4 18.3 1 5 18.2 1 6 16.1 1 7 7.6 1 8 7.5 2 9 0.5 2 10 1.1 2 11 3.2 2 12 6.5 2 13 4.1 2 14 4.7 2 data Group<as.factor(Group)dataContentGroup15.9123.8136.51418.31518.21616.1177.6187.5290.52101.12113.22126.52134.12144.72dataGroup
[1] 1 1 1 1 1 1 1 2 2 2 2 2 2 2
Levels: 1 2

#bartlett.test方差齐性检验
bartlett.test(Content~Group)

Bartlett test of homogeneity of variances

data: Content by Group
Bartlett’s K-squared = 3.9382, df = 1, p-value = 0.0472

#var.test方差齐性检验
var.test(Content~Group)

F test to compare two variances

data: Content by Group
F = 5.9773, num df = 6, denom df = 6, p-value = 0.04695
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
1.02707 34.78643
sample estimates:
ratio of variances
5.9773

#leveneTest方差齐性检验(也是SPSS的默认方差齐性检验方法)
library(car)
leveneTest(data C o n t e n t , d a t a Content,data Content,dataGroup)
Levene’s Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 1 3.073 0.1051
12

#结果说明两独立样本数据方差不齐,对齐进行方差不齐分析
t.test(Content,Group,paired=FALSE,var.equal=FALSE)

Welch Two Sample t-test

data: Content and Group
t = 3.7511, df = 13.202, p-value = 0.002362
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
2.519419 9.337724
sample estimates:
mean of x mean of y
7.428571 1.500000

#方差齐性检验表明,方差不等,因此设定var.equal=FALSE,此时p=0.0023<0.05,
#表明该饲料在两地的含铁量有显著差异。

—————————#配对样本T检验#——————————————
#某人研究冲水对草鱼产卵率的影响, 获得冲水前后草鱼产卵率(%),如下:
#冲水前:82.5,85.2,87.6,89.9,89.4,90.1,87.8,87.0,88.5,92.4
#冲水后:91.7,94.2,93.3,97.0,96.4,91.5,97.2,96.2,98.5,95.8
#问:冲水前后草鱼亲鱼产卵率有无差异?

Before<-c(82.5,85.2,87.6,89.9,89.4,90.1,87.8,87.0,88.5,92.4)
After<-c(91.7,94.2,93.3,97.0,96.4,91.5,97.2,96.2,98.5,95.8)
t.test(Before,After,paired=T)

Paired t-test

data: Before and After
t = -7.8601, df = 9, p-value = 2.548e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-9.1949 -5.0851
sample estimates:
mean of the differences
-7.14

结果表明,p=2.548e-05<0.01,表明冲水前后,草鱼亲鱼的产卵率有非常显著差异。

1)会有很多同学疑惑(Professionals don’t laugh),为什么独立样本T检验有方差相等/不相等之分,而配对样本T检验/单样本T检验没有?
2)t.test(x,y,alternative=c(“two.sided”,“less”,“greater”),mu=0,paired=FALSE,
var.equal=FALSE,conf.level=0.95…)
如果只提供x,则作单个正态总体的均值检验,如果提供x,y则作两个总体的均值检验),alternative表示被则假设,
two.sided(缺省),双边检验,less表示单边检验,greater表示单边检验,mu表示原假设μ0,若 paired=T,为配对检验,
则必须指定x和y,并且它们必须是相同的长度。默认删除缺失值(如果配对为TRUE,则成对配对),var.equal是逻辑变量,
var.equal=TRUE表示两样品方差相同,var.equal=FALSE(缺省)表示两样本方差不同,conf.level置信水平,即1-α,通常是0.95,。

备注:t′检验用于两组间方差不齐时,t′检验的计算公式实际上是方差不齐时t检验的校正公式。

Reference:

[1]顾志峰,叶乃好,石耀华.实用生物统计学[M].北京:科学出版社,2012年.

[2]t检验和方差分析的前提条件及应用误区_百度文库

双侧T检验
零假设H0: μ=0,对立假设Ha: μ≠0(p value可以通俗的理解为同时满足tscore和对立假设的概率,所以越小越支持原假设)

如果t score=1.96,此时p value就是两个白色面积的和,等于0.05

如果t score=−1.96,此时p value也是两个白色面积的和,等于0.05

单侧T检验
零假设H0:μ=0,对立假设Ha:μ>0

如果t score=1.96,此时p value就是右边白色小三角的面积,等于0.025

如果t score=−1.96,此时p value是左边白色面积加上中间蓝色面积的和,等于0.975

类似地,

零假设H0:μ=0,对立假设Ha:μ<0

如果tscore=1.96,此时p value就是右边白色面积加上中间蓝色面积的和,等于0.975

如果tscore=−1.96,此时p value是左边白色面积,等于0.025

为何叫“T“检验,不叫”A”检验,“B”或“检验呢?

因为:T检验的对象是符合T分布特征的数据,T分布是三大分布(卡方分布,U分布)一种。

特征:

以0为中心,左右对称的单峰分布。

T分布是一簇曲线,其形态变化与n(确切地说与自由度DF)大小有关。自由度DF越小,T分布曲线越低平;自由度DF越大,T分布曲线越接近标准正态分布(u分布)曲线。

随着自由度逐渐增大,T分布逐渐接近标准正态分布.

2.T检验用途及公式

T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
适用条件:

(1) 已知一个总体均数;

(2) 可得到一个样本均数及该样本标准差;

(3) 样本来自正态或近似正态总体。

T检验分为单样本检验和双样本检验。

单样本T检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。

当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计呈T分布(如果求出的平均数是由所研究对象全部数据求出的,就叫做总体平均数;如果是由样本求出的,就叫做样本平均数,可以用样本平均数去估算总体平均数)。

双样本T检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。

双样本T检验又分为两种情况,一是独立样本T检验,一是配对样本T检验。

3.T检验步骤和举例

以单样本T检验为例说明:

工厂要求每包精细面粉其平均重量u0=20 (单位:kg) ,某日抽查了16包,测量结果得样本均值为20.0669Kg,样本标准差S =0.1026Kg,问在显著水平a=00.5下,工厂生产的面粉重量都是20Kg?

解:

  1. 建立假设、确定检验水准α

H0:μ = 20 (零假设,null hypothesis

H1:μ ≠ 20(备择假设, alternative hypothesis)

双侧检验,检验水准:α=0.05

  1. 计算检验统计量

  2. 查相应界值表,确定P值,下结论

查附表, t 0.05 / 2.15 = 2.131,t = 2.61,t > t 0.05 / 2.15,P < 0.05,按α=0.05水准,拒绝H0,即认为面粉重量差别已有显著变化,生产不正常。

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值