数据学习(十四)-方差分析与试验设计

1.方差分析引论

2.单因素方差分析

3.方差分析中的多重比较

4.双因素方差分析

5.试验设计初步

1.方差分析引论

方差分析是比较多个总体的均值是否相等,但本质上它所研究的是变量之间的关系。

1.1 方差分析及其有关术语

检验多个总体均值是否相等的统计方法,成为方差分析。方差分析所研究的是分类型自变量
对数值型因变量的影响,包括它们之间有没有关系,关系的强度如何等。通过检验各总体的
均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

在方差分析中,所要检验的对象称为因素或因子。
因素的不同表现称为水平或处理。
每个因子水平下得到的样本数据称为观测值。
在只有一个因素的方差分析(称为单因素方差分析)中,涉及到两个变量:一个是分类
型自变量,一个是数值型的因变量。当我们研究自变量对数值型变量的影响时,用的就
是方差分析。

方差分析中的基本假定
方差分析中有三个基本的假定:
(1)每个总体都服从正态分布。
(2)各个总体的方差o2必须相同。
(3)观测值是独立的。

1.2 问题的一般提法
在这里插入图片描述

2.单因素方差分析

当方差分析中只涉及一个分类型自变量时,称为单因素方差分析。

2.1 数据结构
分析步骤1.提出假设在方差分析中,原假设所描述的是:在按照自变量的值分成的类中,,因变量的均值是否相等。因此,检验因素的k个水平的均值是否相等时,需要提出如下形式的假设:H0:u1=u2=u3=… 没有显著影响H1:ui(i=1,2,…)不完全相等 自变量对因变量有显著影响。

2.2 分析步骤
分析步骤
1.提出假设
在方差分析中,原假设所描述的是:在按照自变量的值分成的类中,,因变量的均值是否相等。因此,检验因素的k个水平的均值是否相等时,需要提出如下形式的假设:H0:u1=u2=u3=… 没有显著影响H1:ui(i=1,2,…)不完全相等 自变量对因变量有显著影响。
2.构造检验的统计量
为检验H0是否成立,需要确定检验的统计量,如何构造这一统计量。
(1)计算因素各水平的均值。假设从第i个总体中抽取一个容量为n的简单随机样本,令x`为第i个总体的样本均值,则有
在这里插入图片描述
式中n为第i个总体的样本观测值个数;xij为第i个总体的第j个观测值。

(2)计算全乎观测值的总均值。它是全部观测值的总和除以观测值的总个数,令总均值为x`,则有
在这里插入图片描述
式中n=n1+n2+n3+…+nk。

(3)计算误差平方和。为构造检验统计量,在方差分析中,需要计算3个误差平方和,它们是总误差平方和、水平项误差平方和、误差项平方和。
1)总误差平方和,简记为SST.它是全部观测值xij与总观测值的误差平方和,反映了全部观测值的离散状况。其计算公式为
在这里插入图片描述
2)水平项误差平方和,简记为SSA,它是各组平均值x与总平均值x的误差平方和,反映各总体的样本均值之间的差异程度,因此又称为组间平方和。其计算公式为
在这里插入图片描述
3)误差项平方和,简记为SSE,它是每个水平或组的各样本数据与组平均值误差的平方和,它反映了每个样本各观测值的离散状况,因此又称为组内平方和或残差平方和,前面已经提到,该平方和实际上反映的是随机误差的大小。其计算公式为
在这里插入图片描述
从上述三个误差平方和可以看出,SSA是对随机误差和系统误差的大小的度量,它反映了自变量对因变量的影响,也称为自变量效应或因子效应;SSE是对随机误差的大小的度量,它反映了除自变量对因变量的影响之外,其他因素对因变量的总影响,因此SSE也被称为残差变量,它所引起的误差也称为残差效应;SST是全部数据总误差程度得我度量,它反映了自变量和残差变量的共同影响,因此它等于自变量效应加残差效应。
(4)计算统计量。各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们的自由度,这结果称为均方。3个平方和所对应的自由度分别是
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2.2 统计决策
计算出检验的统计量后,将统计量的值F与给定的水平阿法的临界值F阿法进行比较,从而作出对原假设H0的决策。
在这里插入图片描述
在这里插入图片描述

2.3关系强度的度量
在这里插入图片描述

3.方差分析中的多重比较

多重比较方法,它是通过对总体均值之间的配对比较看来进一步检验到底哪些均值之间存在差异。
多重比较方法有多中,我们了解最小显著差异方法,简写LSD,步骤如下:1.提出原假设:H0:u1=u2,H1:u1!=u2;
2.计算检验统计量:xi-xj;
3.计算LSD,其公式为:
在这里插入图片描述
在这里插入图片描述
4.根据显著性水平作出决策:如果|xi-xj|>LSD,则拒绝H0;否则反之。

4.双因素方差分析

4.1 双因素方差分析及其类型

当方差分析中涉及两个分类型变量时,称为双因素方差分析。
在双因素分析中,如果双因素对数值型变量的影响时相互独立的,那么我们称为无交互作用的双因素方差分析。如果将两个因素一起搭配也对数值型变量产生影响,可称为有交互的双因素方差分析。
分析步骤与单因素方差分析一样,双因素方差分析也包括提出假设,确定检验的统计量,决策分析等步骤。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4.2 关系强度的度量

在这里插入图片描述

5.试验设计初步

5.1 完全随机化设计

收集样本数据的过程称为试验。
收集样本数据的计划称为试验设计。
将k种处理随机地指派给试验单元的设计,称为完全随机化设计。
接受处理的对象或实体,称为试验单元。

5.2 随机化区组设计

先按一定规则将试验单元划分为若干同质组,称为区组,然后再将各种处理随机地指派给各个区组,这样的试验设计称为随机化区组设计。

5.3 因子设计

两个或多个因素的搭配试验设计,称为因子设计。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值