从这个部分我们就开始为大家介绍统计推断的内容了,我们将重点放到相关统计函数的特定参数及其输出的解释上。
一些最基础的统计检验基本上都是比较连续数据之间的差异,可能是两个组之间的比较,也可能是单组与特定值或预设值之间的比较,这便是本章的主题了。
首先介绍两个函数:用来进行t检验的t.test()和进行Wilcoxon检验的wilcox.test()。它们能够对单样本、两独立样本与配对样本进行检验。
#Tips:统计推断的部分我们不会把重点放到统计原理上,如果对统计学原理感兴趣的朋友请查阅相关的统计书籍,我们只会把部分必须解释的统计内容呈现出来。
A. 单样本t检验
适用条件:满足正态分布的连续型数据,数据之间保持随机性和独立性。
适用范围:比较当前数据总体与单个预期值的大小。
实例:11位女性的每日摄入能量记录存放到intake变量中:
> intake=c(5260,5470,5640,6180,6390,6515,6805,7515,7516,8230,8770)
我们可以先进行简单的描述再来作推断:
> mean(intake)
[1] 6753.727
> sd(intake)
[1] 1142.19
> quantile(intake)
0% 25% 50% 75% 100%
5260.0 5910.0 6515.0 7515.5 8770.0
也许你想检验一下这些女性的摄入能量是不是与推荐值7725千焦相差甚远。首先,我们需要检验一下正态性,这里介绍一个最简单的正态性检验的方法:用夏皮罗-威尔克(Shapiro-Wilk)法检验数据正态性,即W检验,1965 年提出,适用于样本含量n ≤50 时的正态性检验。shapiro.test()
> shapiro.test(intake)
Shapiro-Wilk normality test
data: intake
W = 0.95238, p-value = 0.6744
#Tips:重点是p-value的结果,这里的值是0.6744>0.05(检验水准也可以是0.1),满足正态性。如果P值过小的情况下,就不满足正态性了,可以先进行数据转换,比如说对数转换,平方根反正弦变换,倒数变换等等方法,如果都不能满足正态的话,使用非参数的方式计算,比如后文的Wilcoxon。另外检查数据正态性的方法有很多,这里不一一列举,其实前面作图的时候讲过的QQ图也可以用来检验正态性。
我们通过W检验,得知数据服从正态分布,那么我们接下来的要做的就是检验这个分布是否满足μ=7725。
> t.test(intake,mu=7725)
One Sample t-test
data: intake
t = -2.8203, df = 10, p-value = 0.01815
alternative hypothesis: true mean is not equal to 7725
95 percent confidence interval:
5986.394 7521.061
sample estimates:
mean of x
6753.727
结果解释