均值已知检验方差_方差分析与R

5c7cb6cb215a34eba93304e5080a9684.png

1.什么是方差分析?

假设有多个总体(三个及以上),都是服从正态分布且方差相同。方差分析就是检验多个总体均值是否相等的统计方法。

比如用三种鸡饲料喂小鸡,三个月后小鸡的重量是随机的,假设服从正态分布。我们自然就问,这三种鸡饲料喂的小鸡三个月以后重量的均值是否相同?

从这个例子中我们可以看出,在假设其它条件相同的情况下,造成小鸡三个月后平均重量不同的因素就是鸡饲料。若三种鸡饲料对小鸡重量的影响效果相同,那么三个月后小鸡的平均重量就相同;否则就不相同。

这里的鸡饲料我们给它起个名字叫因子,三种鸡饲料称为三个水平。方差分析就是研究因子对总体的均值是否有影响?上面的例子中只有一个因子,就称为单因子方差分析。

这里我们只介绍单因素方差分析,多个因子的方差分析这里就不再介绍,感兴趣的同学参考数理统计的相关文献和教材。

2. 方差分析的假设

一般地,在单因子方差分析中,记因子为

,设其有
个水平,记为
。在每一水平下考察的指标可以看成一个总体 。因为现共有
个水平,故有
个总体。假定
  • 在第
    水平下,所考察的总体
    服从正态分布,即
    ,
    ;
  • 各个总体的方差相等:
    ;
  • 从每一总体中抽取的样本之间相互独立的,即样本
    ,
    ,
    ,
    相互独立的。

3.方差分析:F检验

(1). 统计假设

不全相等

(2). 检验统计量

假设第

个总体的样本为
,
。令
,
,
,
.

,
,
.

命题1

检验统计量

命题2 在

成立的条件下,

4.模型的方差齐次性检验

方差分析模型有两个很重要的假设

  • 在每个水平下,总体是服从正态分布的;
  • 各水平总体的方差是相同的。

这两个假设必须要通过样本数据检验。关于正态分布的QQ检验,我这里就不再赘述,参见我的知文“t检验与R”即可。下面我们简单介绍各水平总体的方差是相同的检验,这显然是两总体方差F检验(见“t检验与R”)的推广。

统计假设

不全相等

关于检验统计量这里就不讲述,有兴趣的同学参见茆诗松老师的《概率论与数理统计教程》。下面我们讲会结合例子来说明。

5.方差分析的建模步骤

  • 根据各水平总体样本,对各水平总体进行QQ检验;
  • 根据各水平总体样本,进行方差齐次性检验;
  • 方差分析:各水平总体均值相等的检验

6.案例分析

在饲料养鸡增肥的研究中,某饲料研究所提出三种饲料配方:A1是以鱼粉为主的饲料,A2是以槐树粉为主的饲料,A3是以苜蓿粉为主的饲料。为比较三种饲料的效果,特选 24 只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示:

因子(食料) | 鸡 重(克)

——————————————————————————

A1 | 1073 1009 1060 1001 1002 1012 1009 1028

A2 | 1107 1092 990 1109 1090 1074 1122 1001

A3 | 1093 1029 1080 1021 1022 1032 1029 1048

问三种饲料对鸡的增肥作用是否相同?[1]

解:R语言实现:

>x1<-c(1073,1009,1060,1001,1002,1012,1009,1028)

>x2<-c(1107,1092,990,1109,1090,1074,1122,1001)

>x3<-c(1093,1029,1080,1021,1022,1032,1029,1048)

>x<-c(x1,x2,x3)

>A<-factor(rep(1:3,c(8,8,8)))

>library(gplots)

>plotmeans(x~A) #Plot group means and confidence intervals.

915e5a46796939d31ff0e513123871fe.png
样本均值和置信区间

分析:从上图可以看出,样本均值之间差异比较明显,但必须通过方差分析来说明三个总体均值之间是否存在显著性差异。在方差分析之前,首先做好下面两个检验:

  • 根据各水平总体样本,对各水平总体进行QQ检验;
  • 根据各水平总体样本,进行方差齐次性检验。

QQ检验这里就不演示了,下面结合R语言给出Bartlett齐次性检验。

>bartlett.test(x~A)

Bartlett test of homogeneity of variances

data: x by A

Bartlett's K-squared = 3.3863, df = 2, p-value = 0.1839

分析:检验统计量的值为3.3863,p值为0.1839>0.05,说明总体之间的方差没有显著性差异。说明符合模型方差齐次性的假设。

下面进行结合R语言给出均值相等的检验:

>Aov<-aov(x~A)#方差分析

>summary(Aov)

Analysis of Variance Table

Response: x

Df Sum Sq Mean Sq F value Pr(>F)

A 2 9660.1 4830.0 3.5948 0.04543 *

Residuals 21 28215.9 1343.6

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F检验:F=3.5948,P-值=0.04543<0.05,因此三种食料对鸡的增肥作用显著不同。

通过F检验可知三种食料对鸡的增肥作用显著不同,那么我们就两个比较,通过Tukey检验来看看哪两个总体之间的均值存在显著性差异。

TukeyHSD(Aov)

Tukey multiple comparisons of means

95% family-wise confidence level

Fit: aov(formula = x ~ A)

$A

diff lwr upr p adj

2-1 48.875 2.678835 95.07116 0.0368870

3-1 20.000 -26.196165 66.19616 0.5298040

3-2 -28.875 -75.071165 17.32116 0.2779225

分析:从从上面我们可以看到,第1组和第2组有显著性差异,而第1组和第3组之间,第3组和第2组之间没有显著性差异。

7.作业

Iris数据集是常用的分类实验数据集,由Fisher1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含5个属性:

(1)Sepal.Length(花萼长度),单位是cm;

(2)Sepal.Width(花萼宽度),单位是cm;

(3)Petal.Length(花瓣长度),单位是cm;

(4)Petal.Width(花瓣宽度),单位是cm;

(5)Species种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。

请根据数据iris(R自带)来回答下面问题:

(1)三种鸢尾花(Setosa、Versicolour、Virginica)的四个特性(Sepal.Length Sepal.Width Petal.Length Petal.Width )有没有显著性差别?

(2)如果有,请指出哪些种类有显著性差别?

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值