统计学笔记【1】方差分析 ANOVA

1 基本概念

1.1 定义及应用

从形式上看,方差分析比较多个总体的均值是否相等,本质上是研究分类型自变量数值型因变量的影响(eg:行业是否对被投诉次数有影响),与回归分析的方法有许多相同之处,但又有本质区别。在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中的主要方法之一。方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

1.2 因子、水平

在方差分析中,所要检验的对象称为因素因子(factor)。
因素的不同表现称为水平处理(treatment)。
每个因子水平下得到的样本数据称为观察值

下面是一个单因素4水平的试验:
在这里插入图片描述

1.3 误差分解

1.3.1 组内误差 SSE

  • 来自水平内部的数据误差称为组内误差。

例如在上表中,零售业中抽取的7家企业之间的投诉次数是不同的,由于企业是随机抽取的,因此他们之间的差异可以看成是随机因素的影响造成的。

  • 组内误差只含有随机误差

1.3.2 组间误差 SSA

  • 来自不同水平之间的数据误差称为组间误差。
  • 这种差异可能是由抽样本身形成的随机误差,也可能是由行业本身的系统性误差造成的系统误差。组间误差是随机误差系统误差的总和。

1.3.3 SST、SSE、SSA

  • 1、反应全部数据误差大小的平方和称为总平方和,记为SST
    试验中,23家企业被投诉次数之间的误差平方就是总平方和,反应全部观测值的离散状况。
    自由度为n-1,n为全部观测值的个数

  • 2、反应组内误差大小的平方和称为组内平方和,也称为误差平方和或者残差平方和,记为SSE
    试验中,每个样本内部的数据平方和加在一起就是组内平方和,反应每个样本内各观察值的离散情况。
    自由度为n-k,k为因素水平(总体)的个数

  • 3、反应组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA
    组间误差可能是由抽样本身形成的随机误差,也可能是由行业本身的系统性因素造成的系统误差,因此,组间误差是随机误差和系统误差的总和。
    试验中,四个行业被投诉次数之间的误差平方和就是组间平方和,反应了样本均值之间的差异程度。
    自由度为k-1

SST = SSE + SSA

总结:

  • SSA是对随机误差和系统误差大小的度量,它反映了自变量(行业)对因变量(被投诉数)的影响,也称为自变量效应****或因子效应
  • 6
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值