方差分析【单/双因素方差分析】

方差分析

一、单因素方差分析(Analysis of Variance)

1.方差分析在做什么?
  • 比较不同分组(通常组别大于等于3)之间均值是否存在显著差异,如果组别是两组,直接使用t检验就可以;
  • n个分类,它们的某一些特征值的平均值,是否有显著区别;
    • 分类:因素(factor or independent variable)。是分类型变量,且类别大于3;
  • n个分类,它们的某一特征值的平均值,是否有显著区别;
    • 特征值(dependent variable):连续型变量;

在这里插入图片描述
在这里插入图片描述

2.方差分析的思路:
  • 数据整体波动(sum of squares total):组内波动与组间波动
  • 组内波动:
    • 某一分组内,个体特征值的离散程度
    • Sum of Squares Within,SSW
    • 例子:协和医学院学生考试成绩的离散程度
  • 组间波动:
    • 不同分组之间,分组特征值的平均值的离散程度
    • Sum of Squares Between,SSB
    • 例子:协和医学院、北大医学院、哈弗医学院,学生考试成绩均值的离散程度v

在这里插入图片描述
在这里插入图片描述

结论:

组间波动占整体越大,组内波动占整体越小,各组均值相等的可能性越小

组内波动占整体越大,组间波动占整体越小,各组均值相等的可能性越大

3.方差分析中的计算:
  • SST:

在这里插入图片描述

  • SSW:

在这里插入图片描述

  • SSB

在这里插入图片描述

  • 整体波动 = 组内波动 + 组间波动

在这里插入图片描述

4.构造F统计量:

在这里插入图片描述

  • 自由度

在这里插入图片描述

如果F统计量很大(例如:F统计量对应的P值小于0.05),意味着SSB显著的大于SSW,有理由认为各分组之间的平均值存在显著差异,拒绝原假设;

如果F统计量很小(例如:F统计量对应的P值大于0.05),意味着SSB不显著的大于SSW,有理由认为各分组之间的平均值不存在显著差别,接受原假设;

二、双因素方差分析(Two-way ANOVA)

1.双因素方差分析在做什么?

根据两个因素进行分组时,不同分组之间特征值的平均值是否相等。

  • 特征值:连续变量(例如:播放量、成绩)
  • 因素:分类型变量(例如:视频分区、学历、院校、性别)
  • 分类组别不一定大于3
2.双因素方差探讨三个问题:
  • 问题一:根据第一个因素进行分组时,不同分组之间的特征均值是否相等
    • 原假设:第一个因素对特征值没有显著影响
    • 备择假设:第一个因素对特征值均值存在显著影响
  • 问题二:根据第二个因素进行分组时,不同分组之间的特征均值是否相等
    • 原假设:第一个因素对特征值没有显著影响
    • 备择假设:第一个因素对特征值均值存在显著影响
  • 问题三:第一个因素和第二个因素的交互效应,是否对不同分组之间的特征值均值产生影响
    • 原假设:交换效应对特征值均值没有显著影响
    • 备择假设:交互效应对特征值均值存在显著影响
3.双因素方差分析的检验思路
  • 第一步:计算出因素一波动、因素波动、交互项波动、误差波动

  • 第二步:分别将因素一波动、因素二波动、交互项波动、与误差项波动进行比较

    • 因素一波动 v.s. 误差项波动进行比较
    • 因素二波动 v.s. 误差项波动进行比较
    • 交互项波动 v.s. 误差项波动进行比较

计算五个波动

  • 数据整体波动(sum of squares total)
  • 第一个因素所带来的波动(sum of squares first factor)
  • 第二个因素所带来的波动(sum of squares secon factor)
  • 两个因素交互项所带来的波动(sum of squares interaction)
  • 误差项所带来的波动(sum of squares error)

在这里插入图片描述

  • 例子:
  • 在这里插入图片描述
  • 在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
4.双因素方差分析中的计算方法
  • 数据整体波动:

    每个个体的数值减去总体的平均值的平方和
    在这里插入图片描述

  • 第一个因素所带来的波动

    认为的构造一组数据,使得它只有由性别引起的波动,而没有由其他因素引起的波动。
    在这里插入图片描述

  • 第二个因素所带来的波动

    人为的构造一组数据,使得它只有由医学院引起的波动而没有由其他因素引起的波动;

    在这里插入图片描述

  • 交互项所带来的波动

    交互项所带来的波动 = 模型波动 - 因素一波动 - 因素二波动

    • 模型波动

在这里插入图片描述

在这里插入图片描述

  • 误差项所带来的波动
    • 模型所不能解释的波动,个体取值减去模型所能解释的取值
    • 模型所能解释的取值:如果某个个体,只受性别和学校影响,不受其他因素的影响,个体取值应该为所在性别和学校的平均值

在这里插入图片描述

5.构造F统计量

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

根据F统计量,查找对应的p值,如果小于0.05,则表明因素显著的影响特征值,如果大于0.05或者大于提前设置的临界值,则表明因素对特征值取值没有显著的影响。

  • 11
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值