1. 概念
N个分类,他们某一特征值的平均值,是否有显著区别。
分类:因素(factor or independent variable),是分类型变量,且类型大于3。分类的个体相互之间是独立的。
特征值(dependent variable):连续型变量,即要研究的某个变量。
例子:PT, PMMU和PML模型计算出的20年的年平均蒸发量,平均值是否有显著区别。蒸发量就是特征值,不同模型就是分类。
原假设:H0: μ1=μ2=μ3 均值都相等
备择假设:H1:μ1,μ2,μ3 不全相等
2.前提
(1)每个总体均服从正态分布,
(2)每个总体的方差σ2相同;
(3)从每个总体中抽取的样本相互独立。
3. 原理
数据整体波动(sum of squares total, SST)=组内波动(sum of squares within, SSW)+组间波动(sum of squres between, SSB)
组内波动:某一分组内,个体特征值的离散程度。PT模型计算的蒸发的离散程度
组间波动:不同分组之间,分组特征值的平均值的离散程度。三个模型计算结果均值的离散程度。
组内波动占整体波动越大,组间波动占整体波动越小,各组均值相等的可能性越大。
通过构造F统计量来判断组间波动占比是否足够大,大到足够拒绝原假设。
4.计算
SST=,为所有数据的均值。 包含了三个模型计算的所有的蒸发数据。
SSW=,为所在组的数据的均值。
SSB=,是所有数据的总和,组内是一样的,会重复计算。
构造F统计量=(卡方分布1/自由度)/(卡方分布2/自由度2)=
F统计量服从f分布。
卡方分布等于n个标准正态分布的平方和。
自由度:df,n-1。例子里面组间波动的自由度为2,组内波动的自由度为19。
如果F统计量很大,且对应的P值小于0.05/0.01(查表),意味着SSB显著大于SSW,有理由认为各分组之间的平均值存在显著差别,拒绝原假设。多大算大,通过查表,对应的p值。
如果F统计量很小,对应的P值大于0.05,意味着SSB不显著大于SSW,有理由认为各分组之间的平均值不存在显著差别,接受原假设。