0 前言
在NTU 课程笔记:CV6422 置信区间_UQI-LIUWJ的博客-CSDN博客我们知道,如果两个样本的population 方差一样,且样本规模不大的话的话,可以用t分布进行两个样本均值之差的估计:
用假设检验的方式表示,有:
那么,如果我们需要比较的组别数大于2呢?
我们当然可以通过两两比较的方式来判断是否他们的均值是一样的,但这样在组别多的时候会比较耗时,那么有没有什么方法,可以一步解决呢?
换一种方式表示,即为如下的假设检验:
1 问题定义
2 先从两组的开始
可以推出:
2.1 如果两组均值一样的话:
如果两组均值一样的话,那么有:
对于,我们进行如下转化
我们令,称之为Grand Mean
于是有:
2.2 不考虑均值相等
如果我们不考虑均值相等这个条件,那么有:
利用chi-square分布的可加性,有:
2.3 二者结合
这里的推导使用的是chi-square的性质
我们复习一下F分布的定义
那么有:
而在前面我们知道:
带入,同时对F开根,于是有:
也即是t分布,其中Sw就是
3 多组group
3.1 均值相等的情况
那么,如果是三组的话,我们可以同样地推导过去:
如果是多组的话,亦可以推导过去:
这里S是组的数量
简化表示,我们有:
3.2 不考虑均值的情况
先看三组;
再看N组
同样地进行简化表示,我们有:
3.3 二者结合(ANOVA)
其中
于是
这就是ANOVA (ANalysis Of VAriance),, 用作分析三组或者三组以上的样本均值是否相等
4 SST,SSB,SSW
我们记SST(total sum of squares)为
回顾一下之前的:
SSB (sum of squares between groups)
SSW(sum of squares within groups)
这里的df是自由度,比样本数量少1
4.1 三者的关系
第一项是SSW,最后一项是SSB,中间一项为0(展开就是 =0
所以SST=SSB+SSW
4.2 variation与variance
4.3 举例
希望填以下ANOVA表格(阴影部分不用填值)
首先我们计算一些统计量