文章目录
第六讲 方差分析
第四章介绍了如何比较样本平均数与参考总体平均数,以及比较两个样本平均数。但如果有三个或更多的样本平均数
有三个或更多的样本平均数时,u检验/t检验都有一定的局限,不适用
本文有些数学公式使用md语法打的,刚学这个,有的嫌太累了😂直接用的图片
第一节 方差分析
•方差分析(analysis of variance,ANOVA)又称变量分析,是把所有分组的观测值作为一个整体,一次性比较各组的样本平均数并做出推断。
•如果差异不显著,则认为各组都是相同的;如果差异显著,再进一步比较是哪组数据与其他数据不同。
因素factor | 试验中所研究的影响试验指标的原因或原因组合。温度,湿度 |
---|---|
水平level | 每个因素的不同状态,温度(20℃、30℃、40℃) |
处理treatment | 对受试对象给予的某种外部干预,2种温度+3种湿度=6种处理 |
重复repetition | 在试验中,将同一种重复实施在不止一个实验单位上 |
效应effect | 试验因素相对独立的作用,正效应/负效应 |
互作interaction | 两个或两个以上处理因素间相互作用所产生的效应 |
方差分析的基本思想 |
---|
造成观测值发生不同的原因可以分为两大类 |
一类是处理效应(treatment effect),是试验中对不同个体给予不同处理引起的 |
二类是误差效应(error effect),是试验中偶然性因素的干扰和测量误差所致 |
方差分析就是把所有观测值的总方差分解成处理方差和误差方差并相互比较,看处理效应是否显著大于误差效应 |
方差分析的观测值和平均数
•如表,某试验有k个处理组,且每处理重复n次。
•那么可以计算出每组观测值的平均数 x i x_i xi.,和所有观测的平均数 x . . ‾ \overline{x_{..}} x..。
方差分析的线性模型
每一项观测值:
x i j = μ + T i + ϵ i j x_{ij}=\mu+T_i+\epsilon_{ij} xij=μ+Ti+ϵij
如果用样本来估计参数:
x i j = x . . ‾ + t i + e i j x_{ij}=\overline{x_{..}}+t_i+e_{ij} xij=x..+ti+eij
处理效应的三种模型
1. 固定模型(fixed model):各个处理的效应是特异选择的可以人为控制的固定常量,是由固定因素引起的,且这些常量的和为0 |
---|
2. 随机模型(random model):各个处理的效应不是常量,而是由随机因素所引起的随机变量,且这些变量服从正态分布N(0, σ 2 σ^2 σ2) |
3. 混合模型(mixed model):在多因素试验中,既包括固定效应的试验因素,又包括随机效应的试验因素 |
三种模型的差异:平方和和自由度的计算是相同的,但统计数F的计算公式是不同的,对试验的设计和结果的解释也存在不同。 |
固定模型侧重于效应值的估计和比较,而随机模型侧重于效应值的变异程度的估计和检验。 |
对于单因素方差分析,因为不存在互作,固定模型和随机模型没有区别 |
方差分析的三大步骤:
1. 计算方差**(平方和分解和自由度分解)。** | s 2 = ∑ ( x i − x ‾ ) 2 n − 1 s^2=\frac{\sum(x_i-\overline{x})^2}{n-1} s2=n−1∑(xi−x)2计算离均差平方和,计算自由度,最后相除得方差 | 方差就是离均差平方和除以自由度。| |
---|---|---|
2. 计算统计数F。 | F = S t 2 S e 2 F=\frac{S^2_t}{S^2_e} F=Se2St2 | |
3. (若F检验结论是差异显著)多重比较。 |
平方和分解
K 个 组 的 数 据 累 加 , ∑ i = 1 k ∑ j = 1 n ( x i j − x . . ‾ ) 2 = ∑ i = 1 k ∑ j = 1 n ( x i j − x i . ‾ ) 2 + n ∑ i = 1 k ( x i . ‾ − x . . ‾ ) 2 K个组的数据累加, \\\sum_{i=1}^k\sum_{j=1}^n(x_{ij}-\overline{x_{..}})^2 =\sum_{i=1}^k\sum_{j=1}^n(x_{ij}-\overline{x_{i.}})^2 +n\sum_{i=1}^k(\overline{x_{i.}}-\overline{x_{..}})^2 K个组的数据累加,i=1∑kj=1∑n(xij−x..)2=i=1∑kj=1∑n(xij−xi.)2+ni=1∑k(xi.−x..)2
•上面等式左边项称为总平方和 S S T SS_T SST,反映所有数据距离总平均数的变异情况。
•右边第一项称为组内平方和 S S e SS_e SSe,反映每组内部数据距离本组平均数的变异情况。
•右边第二项称为组间平方和 S S t SS_t SSt,反映每组的组平均数距离总平均数的变异情况。
令 常 数 C = T 2 n k , S S T = ∑ i = 1 k ∑ j = 1 n x i j 2 − C S S t = 1 n ∑ i = 1 k T i . − C