单因素方差分析简单理解-结合假设检验(是什么+基本思想+步骤

本来我想简单理解,用一点话就讲完。但是讲着讲着发现,几句话根本就不能够帮助我简单理解啊,所以就写了很多…

前言

在网上查看了很多的方法分析的步骤,自己看书觉得书上写的也不太清楚,作罢,自己结合假设检验的原理以及步骤写出了方差分析的基本步骤(主要是自己的理解。

方差分析是什么

用比较通俗的话来说就是,利用方差来分析一些问题,什么问题呢?主要是用来研究在不同组的数据对我们所研究的一个指标的影响是否有差异

举例子

这还是有些说不清楚,举例子,作为学生,我们考察这个高三学生的学习成绩,我们想知道不同地区的学习成绩之间是否存在差异。这里的地区为北京、上海、广东。那么全国的学生成绩就是一个总体,方差分析主要是将一个比较笼统的数据,像我们分地区(北京、上海、广东)这样进行分组,分为组内(北京地区的学生成绩,上海的学生成绩等)和组间(北京、上海、广东三个地区的学生成绩),进而来分析地区不同是否他们的成绩也会有差异

例子抽象,进一步理解

简单介绍一下方差分析中可能会涉及到的概念,因为介绍方差分析需要借助他们来描述。
首先,我们要根据研究的目的确定所要研究的对象,统计学一般用数据来研究客观现象的性质,所以我们应该先确定一个指标。
指标是反映总体数量特征的概念和数值,有两个要素,指标的概念和指标的数值。上面的例子中学生成绩就是指标的概念,学生成绩90/100就是指标的数值。这里我们把所研究的指标为试验指标。
再接着,需要知道影响学生成绩的因素。因素相当于是变量一样,是会对我们所研究的试验指标的取值造成影响。在学生成绩的例子中,因素就是地区。

那么总结一下,方差分析主要是利用方差来分析总体的变动情况。其中引起变动分为:可控因素,不可控因素。

其他:
由于因素个数的不同,可以分为单因素多因素的方差分析这里主要讲的是单因素方差分析。还有一个多因素的方差分析是在单因素的基础之上,还考虑了不同因素之间的交互作用,即不同因素还会有一个影响。

方差分析的基本思想

通过对方差分解,分析影响总体方差波动的影响因素,根据影响的来源分为组内误差和组间误差。

主要任务

  1. 看各组水平对总体所研究的指标的影响是否有差异。也就是我们常见的,检验水平均值是否都相等。
  2. 估计未知参数。假设的各个总体的均值;总体随机误差的估计。

方差分析的基本步骤

基本步骤-任务1

  1. 设置指标变量(高三学生的学习成绩),给出影响实验指标的因素(地区),给出因素的不同水平(这里是指不同的地区)。
  2. 建立模型,给出模型的基本假定。模型是指标变量X的表达式;
    基本假定有
    (1) 总体的分布为正态分布。全国高三学生成绩服从正态分布,所有地区的指标变量都服从正态分布,各地区下每个学生的成绩也服从正态分布。
    (2) 不同总体的方差都相等,称为方差齐性。
    (3) 相互独立。每个水平下的变量都是相互独立的,每个水平间的变量也是相互独立的。
  3. 给出方差分析进行检验的假定,建立原假设和备择假设。
    原假设:各个总体的水平的均值相等。
    备择假设:至少存在两个总体的水平不相等。
  4. 总偏差平方和分解。SST=SSA+SSE。
    SST(Sum of Squares for Total):总的偏差平方和
    SSA:组间误差平方和。(不知道为啥是A,看英文书上写的是Sum of Squares Between groups)
    SSE(Sum of Squared Error/Sum of Squares within groups):组内误差平方和。
  5. 分析组间平方和与组间平方和的统计特征。也就是找出他们的分布,方便之后构造检验统计量,对模型的原假设作出判断。
  6. 构造检验统计量
  7. 给定显著性水平,构造拒绝域。
  8. 作出推断。由样本数据计算检验统计量的取值,判定是否落入拒绝域中。

方差分析的一些其他的运用–参数估计–任务2

主要执行任务2

  1. 估计总体的方差。不论原假设是否成立,组内误差平方和 / 总体标准差 始终服从 χ 2 \chi^2 χ2卡方分布(Chi-Square Distribution).所以我们考虑将构造关于组内误差平方和的形式来估计总体的方差。
  2. 估计总体的均值 ,各个水平下的均值。他们是分别利用总体的样本平均数和各个水平的样本平均数统计量来作为总体均值的估计量,计算样本统计量的取值,作为总体均值的估计值。
  3. 当拒绝原假设时,使用LSD(Least Significance Difference)最小显著方差方法找到哪两个水平的均值不相等,并使用上一步求总体均值的方法求得不同水平总体均值差的估计量,由样本数据计算求得估计值。
  4. 同时,再进一步,求出均值差的区间估计。直接利用的分布构造枢轴量,给定一置信水平,即可求得。

对比假设检验的步骤

  1. 根据研究目的,建立原假设和备择假设。
  2. 构造检验统计量。
  3. 给定显著性水平,给出拒绝域的形式。
  4. 计算检验统计量的取值,对比是否落入拒绝域中,作出判断。

方差分析添加的步骤

  1. 模型建立,基本假定。
  2. 总体平均数的计算。
  3. 总平方和分解。
  4. 求出分解后SSA和SSE的统计分布,方便之后构造检验统计量。
  5. 每个水平的均值估计。一般是用各水平的样本均值$$这一统计量作为总体均值的估计量,样本观测值计算得到的数值,作为总体均值的估计值。
  6. 总体随机误差项方差的估计。其中用到了之前分析得到的统计特征,通过对总体的分布得到,样本组内均方误差(SSE/n-s)就是总体随机误差项方差的估计。
  7. 通过检验,拒绝原假设时,通过最小显著性差法(Least Significant Difference)找到哪两个变量之间有显著差异,进行区间估计。

对比总结

可以好好看一下,其实也就是这个步骤。方差分析加上了前面构造模型和基本假定的步骤,后面加上了一些未知参数的取值的步骤

最后的话

啰啰嗦嗦终于说完,以上就是我对方差分析的理解。按照是什么–基本思想–主要任务–主要步骤来展开。写了三天左右,我终于摆脱了网上那些统一化的步骤,结合假设检验,给出了自己的理解。感谢,开心。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值