统计学—方差分析概要

起源:方差分析是在20世纪20年代发展起来的一种统计方法.它是由英国统计学家费希尔在进行试验设计时为解释试验数据而首先引入的。目前。方差分析方法广泛用于分析心理学、生物学、工程和医药领域的试验数据。从形式上看.方差分析是比较多个总体的均值是否相等,但本质上它所研究的是变量之间的关系。

一、方差分析基本概念

1、为什么使用方差分析来研究?

在这里插入图片描述

2、方差分析中的重要术语

因素或因子:在方差分析中,所要检验的对象称为因素或因子;
水平或处理:因素的不同表现称为水平或处理;
观测值:在每个因子水平下得到的样本数据称为观测值;
        正如上例所显示的,要分析行业对被投诉次数是否有显著影响。这里的行业是要检验的对象,称为因素或因子;零售业、旅游业、航空公司、家电制造业是行业这一因素的具体表现,称为水平或处理:在每个行业下得到的样本数据(被投诉次数)称为观测值。由于这里只涉及行业一个因素,因此称为单因素4水平的试验。因素的每一个水平可以看做一个总体,如零售业、旅游业、航空公司、家电制造业可以看做4个总体,上面的数据可以看做从这4个总体中抽取的样本数据
        在单因素方差分析中,通常涉及两个变量:一个是分类型自变量,一个是数值型因变量。在上例中,行业就是自变量,并且是个分类型变量;而零售业、旅游业等就是行业这个自变量的具体取值,称为行业这个因素的水平或处理。被投诉次数是因变量,并且还是个数值型变量,不同的被投诉次数就是因变量的取值。方差分析就是要研究行业对被投诉次数是否有显著影响。

3、方差分析的基本思想与原理

        据上例,我们需要判断的是行业对被投诉次数是否有显著影响的问题;通常我们需要画出散点图来进行一个总体的判断,从散点图中可以看到是有一定差异的;但我们需要知道的是这种差异有可能是由抽样的随机性造成的,因此,我们需要更准确的方法来检验这种差异是否显著,也就是进行方差分析。之所以叫方差分析,是因为虽然人们感兴趣的是均值,但在判断均值之间是否有差异时需要借助于方差。同时也表示,它是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。
组内误差:来自水平内部的数据误差一般称为组内误差,它反映了一个样本内部数据的离散程度。显然,组内误差只含有随机误差。如上例,零售业中所抽取的7家企业被投诉次数之间的误差就是组内误差。
组间误差:不同水平之间的数据误差成为组间误差。这种差异可能是由于抽样本身形成的随机误差,也可能是由于行业本身的系统性因素造成的系统误差。因此,组间误差是随机误差和系统误差的总和。例如,四个行业被投诉次数之间的误差就是组间误差,它反映了不同样本之间数据的离散程度。

总平方和:反映全部数据误差大小的平方和称为总平方和,记为SST。
组内平方和:反映组内误差大小的平方和称为组内平方和,也称为残差平方和,记为SSE。
组间平方和:反映组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA。
总误差(SST)=组内误差(SSE)+组间误差(SSA)

4、误差分析

1、如果不同行业对被投诉次数没有影响,那么组件误差与组内误差经过平均后的数值(称为均方或方差)就应该很接近,它们比值机会接近为1
2、如果不同行业对被投诉次数有影响,那么组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1.当这个比值达到某种程度时,就认为因素的不同水平之间存在显著差异,也就是自变量对因变量有显著影响。

5、方差分析中的基本假定

1、每个总体都应服从正态分布
2、各个总体的方差必须相同
3、观测值是独立的

二、单因素方差分析

1、生成出基本数据结构

在这里插入图片描述

2、分析步骤

2.1 提出假设

在这里插入图片描述
        如果拒绝原假设H0,则意味着自变量对因变量有显著影响,也就是自变量与因变量之间有显著关系;如果不拒绝原假设H0,则没有证据表明自变量与因变量之间有显著关系。

2.2 构造检验的统计量

组内平方和:
在这里插入图片描述
组间平方和:
在这里插入图片描述
总平方和:
在这里插入图片描述
        由于各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的自由度,这一结果称为均方或方差
        由于我们要比较的是组间均方和组内均方之间的差异,所以通常只计算SSA的均方和SSE的均方。其计算公式分别为:
在这里插入图片描述在这里插入图片描述
        将MSA与MSE进行对比,即得到所需要的检验统计量F。当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即在这里插入图片描述
判断依据:判断因素的水平是否对观测值有显著影响,实际上也就是比较组间方差与组内方差之间差异的大小。那么,它们之间的差异达到什么程度才表明有系统误差存在呢?这就需要用检验统计量进行判断。将统计量的值F与给定的显著性水平a下的临界值Fa进行比较,从而做出对原假设H0的决策。
根据给定的显著性水平a,在F分布表中查找临界值Fa(k-1,n-k)
若统计量F>Fa,则拒绝原假设
若统计量F<Fa,则不拒绝原假设

总的来说,最后需要通过计算生成出这样一张方差分析表
在这里插入图片描述

3、关系强度的测量

       以上的计算方差分析结果可以判断出自变量对因变量是否有显著影响,但到底影响程度是多少却没有直观显示,这就需要进一步对关系强度进行测量。
       测量方法:用组间平方和(SSA)占总平方和(SST)的比例大小来反映,将这一比例记为R2,即在这里插入图片描述
R2的平方根就可以用来测量自变量与因变量之间的关系强度

4、方差分析中的多重比较

       在我们判断出不同行业被投诉次数的均值不完全相同的时候,我们需要进一步比较这些差异到底是出现在哪些行业当中的,此时我们就需要使用多重比较方法,它是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。
       多重比较方法有许多种,我们一般使用费希尔提出的最小显著差异方法,缩写为LSD方法,具体步骤有:
在这里插入图片描述

5、非参检验

三、双因素方差分析

       当方差分析中涉及到两个分类型自变量时候,称为双因素方差分析。以不同品牌的彩电在不同地区的销售量情况作为案例,其中品牌与地区便是两个分类型自变量,销售量就是最终的观测值。如果品牌与地区对销售量的影响是相互独立的,那么此时的双因素方差分析称为无交互作用;如果某个地区对某种品牌有特殊偏好,这就是两个因素结合后产生的新效应,这时的双因素方差分析称为有交互作用的双因素方差分析

1、无交互作用的双因素方差分析

1.1 数据结构

       由于双因素方差分析有两个因素,因此在获取数据的时候,需要将一个因素安排在行的位置,称为行因素;而另一个因素安排在列位置,称为列因素,具体数据结构图如下图所示:
在这里插入图片描述

1.2 分析步骤

       双因素方差分析步骤与单因素方差分析的步骤大致相同,主要是公式上要注意双因素的存在。双因素方差分析需要分别构造列因素和行因素的统计量,与单因素方差分析构造统计量的方法类似,这里我们需要构造出行因素与列因素的误差平方和。
总平方和
在这里插入图片描述
行因素误差平方和
在这里插入图片描述
列因素误差平方和
在这里插入图片描述
随机误差平方和
在这里插入图片描述
上述平方和的关系:SST=SSR+SSC+SSE
       类比单因素方差分析均方误差的求法,我们求出行因素的均方为:MSR=SSR/(K-1);列因素的均方为:MSC=SSC/(r-1);随机误差项的均方,为MSE=SSE/((K-1)(R-1))。
检验统计量F分布分别为:
在这里插入图片描述

1.3 关系强度的测量

使用R2统计量来进行判别
在这里插入图片描述

2、有交互作用的双因素方差分析

       无交互作用的双因素方差分析是假定两个因素对因变量的影响是独立的,但如果两个因素搭配在一起会对因变量产生一种新的效应,就需要考虑交互作用对因变量的影响,这就是有交互作用的双因素方差分析。
在这里插入图片描述

3、R语言实战

代码示例

> attach(ToothGrowth)
> table(supp, dose)
dose
supp 0.5 1 2
OJ 10 10 10
VC 10 10 10
>
> aggregate(len, by=list(supp, dose), FUN=mean)
Group.1 Group.2 x
1 OJ 0.5 13.23
2 VC 0.5 7.98
3 OJ 1.0 22.70
4 VC 1.0 16.77
5 OJ 2.0 26.06
6 VC 2.0 26.14
>
> aggregate(len, by=list(supp, dose), FUN=sd)
Group.1 Group.2 x
1 OJ 0.5 4.459709
2 VC 0.5 2.746634
3 OJ 1.0 3.910953
4 VC 1.0 2.515309
5 OJ 2.0 2.655058
6 VC 2.0 4.797731
>
> dose <- factor(dose)
#dose变量量被转换为因⼦子变量量,这样aov()函数就会将它当做⼀一个分组变量量,⽽而不不是⼀一个数值型协变量量
> # condider interactive factor
> fit <- aov(len ~ supp*dose)
> summary(fit)
Df Sum Sq Mean Sq F value Pr(>F)
supp 1 205.4 205.4 15.572 0.000231 ***
dose 2 2426.4 1213.2 92.000 < 2e-16 ***
supp:dose 2 108.3 54.2 4.107 0.021860 *
Residuals 54 712.1 13.2
---
Signif. codes: 0***0.001**0.01*0.05.0.1 ‘ ’ 1
#计算结果表明、主效应和交互效应都是显著的

#有多重方式对结果进行可视化处理,此处可用interaction.plot()函数来展示双因素方差分析的交互效应
# interactive effect
interaction.plot(dose, supp, len, type="b",
col=c("red","blue"), pch=c(16, 18),
main = "Interaction between Dose and Supplement Type")

效果展示:
(interaction.plot()函数绘制)
图1-各种剂量量喂⻝⾷食下豚⿏鼠⽛牙⻮齿⻓长度的均值

library(HH)
interaction2wt(len~supp*dose)
>
> detach(ToothGrowth)

ToothGrowth数据集的主效应和交互效应。图形由interaction2wt()函数创建
图2-ToothGrowth数据集的主效应和交互效应

四、参考资料

1、DataWhale数理统计学习资料
2、贾俊平《统计学》
3、陈希孺 《概率论与数理统计》

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值