推断性统计部分(四)—简单方差分析
标签(空格分隔): 概率论与数理统计
方差分析,分为单因素试验方差分析、多因素无重复试验方差分析及多因素试验方差分析三部分。在试验中,考察的指标称为试验指标,影响试验指标的条件称为因素(一般分为可控因素,如温度、剂量;不可控因素,如测量误差),因素所处的状态(状态这个词比较抽象,我所理解的,或许用子因素来描述会更好理解)称为该因素的水平,给出几个例子来说明三个部分的试验,也进一步理解上述定义:
例1、车间生产时,通常有多台机器生产同一样标准规格的产品,假如有三台机器在生产同一规格的铝合金薄板,我们要检验三台机器生产的一致性,即他们生产的厚度是否一致,还是有显著的差异。此时,厚度是我们所需要检验一致性的内容,所以厚度即为试验指标,机器即为因素,三台不同的机器即为机器的三个不同的水平(我所理解的就是三个子因素,或者用维度来表示因素,维度的子维度表示水平会让某些人容易理解一些),而其它条件如测试厚度的仪器是同一台,人员是同一个,原材料是同一批,等等其它因素的水平都一样,只有一个机器因素有不同水平。此时,称之为单因素试验。
例2、继续上面的例子,假如我还有一个原材料因素,它也有三个不同的水平,此时有两个不同的因素有不同的水平,检验目的是原材料及机器两个因素对生产薄板的厚度是否有显著影响,此时称之为双因素试验或多因素试验(当因素大于1个时,我们就可以叫多因素试验)。
例3、继续上面的例子,我们划分一下无重复试验及重复试验,假如在双因素试验中,我们每一个组合仅试验了一次,此时称为多因素无重复试验,若我们每一个组合均进行了多次试验,则称为多因素等重复试验,是否需要重复试验由能否确定因素之间的独立性来确定,可以确定各因素是独立的,则不需要进行重复试验,否则需要。
总的来说,方差分析就是检验不同因素的不同水平是否对试验指标有显著的影响
此处先给出方差分析的基本思想,就是把组内的方差(即同一因素同一水平下的方差)与组间的方差(同一因素不同水平的方差)进行显著性检验,若比值越大,即组内方差比组间方差大,说明影响主要来自组的内部,而不是不同水平,否则,影响来自组间,即各水平是显著不同的。
单因素试验方差分析
应用方差分析,包括后面的多因素试验方差分析,首先有三个前提:正态、等方差、独立。即,各水平的试验数据服从正态分布,各水平所构成的正态总体方差相等,各水平所收集到的试验数据是互相独立的。以上述例1来说,同一机器下生产的薄板厚度,我们可以看作是正态的;因为只有机器的水平不一样,其它因素都一样,所以总体均值的不一致是因为机器不同水平所产生的(属系统误差),而因其它随机因素的干扰造成的波动所形成的误差是随机误差,但因其它因素都一样,随机误差从理论上应该是一致的,所以可以认为总体的方差相同;从实际原理可知,各数据之间并无关联,独立性得证。
下面是解决方案:
1)先引入定义:
因素
A
的各个水平:
总平均:
X¯=μ=1n∑sj=1njμj=1n∑sj=1∑nji=1Xij
,其中
n
为总观察结果个数
水平
Aj
下的样本均值:
X¯⋅j=1nj∑nji=1Xij
误差平方和:
SE=∑sj=1∑nji=1(Xij−X¯⋅j)2
,表示在水平
Aj
下,样本观察值与样本均值的差异,由随机误差所引起。
效应平方和:
SA=∑sj=1∑nji=1(X¯⋅j−X¯)2=∑sj=1nj(X¯⋅j−X¯)2
,表示在水平
Aj
下,样本均值与总均值的差异,由效应差异及随机误差引起。
总偏差平方和:
ST=∑sj=1∑nji=1(Xij−X¯)2=SE+SA
2)解决方案:
当真实数值落在接受域内时,有
SA(s−1)
是
σ2
的无偏估计,落在拒绝域时,比
σ2
大,而
SE(n−s)
则无论什么情况,都是
σ2
的无偏估计,于是,我们可以通过检验量
F=SA/(s−1)SE/(n−s)≥k
来拒绝效应平方和对整体方差的估计是无偏的,来进一步拒绝效应平方和与整体方差的一致性,即显著不一致,以此来达到我们的目的。
可以使用方差分析表来进行分析:
方差来源 | 平方和 | 自由度 | 均方 | F比 |
---|---|---|---|---|
因素 | SA | s−1 | S¯A=SAs−1 | F=S¯AS¯E |
误差 | SE | n−s | S¯E=SEn−s | |
总和 | ST | n−1 |
可以使用较为容易理解的公式来计算各项内容:
变量 | 计算式 | 描述 |
---|---|---|
列和: T⋅j | ∑nji=1Xij,j=1,2,3……,s | 各水平下观察值的总和 |
总和: T⋅⋅ | ∑sj=1∑nji=1Xij | 所有观察值的总和 |
ST | ∑sj=1∑nji=1X2ij−T2⋅⋅n | 所有观察值平方的和减去总和平方除以总个数 |
SA | ∑sj=1∑nji=1X2⋅j−T2⋅⋅n=∑sj=1T2⋅jnj−T2⋅⋅n | 以列均值代替各水平的具体数值来计算其偏差,因为 ∑nji=1X2⋅j 中,各 X2⋅j 是一样的,所以可以化为 nj⋅X2⋅j=(njX⋅j)2nj=T⋅j2nj |
SE | ST−SA | 二者之差 |
3)未知参数的估计
当拒绝原假设(即出现各水平间显著差异时),需要对各均值之差作区间估计,以确定两两之间的差距范围,于是使用枢轴量
t=(X¯⋅j−X¯⋅k)−(μj−μk)S¯E(1nj−1nk)√∼t(n−s)
来确定置信区间。
双因素无重复试验方差分析
双因素无重复试验可以看作是两个单因素试验的结合,方差分析表中加入第二个因素B,表中,A因素在行,B因素在列,如下:
方差来源 | 平方和 | 自由度 | 均方 | F比 |
---|---|---|---|---|
因素A | SA | r−1 | S¯A=SAr−1 | F=S¯AS¯E |
因素B | SB | s−1 | S¯B=SBs−1 | F=S¯BS¯E |
误差 | SE | (r−1)(s−1) | S¯E=SE(r−1)(s−1) | |
总和 | ST | rs−1 |
同样可以使用较为容易理解的公式来计算各项内容:
变量 | 计算式 | 描述 |
---|---|---|
列和: T⋅j | ∑ri=1Xij,j=1,2,3……,s | 在因素B相同水平下,A因素各水平的观察值的总和 |
行和: Ti⋅ | ∑sj=1Xij,i=1,2,3……,r | 在因素A相同水平下,B因素各水平的观察值的总和 |
总和: T⋅⋅ | ∑ri=1∑sj=1Xij | 所有观察值的总和 |
ST | ∑sj=1∑ri=1X2ij−T2⋅⋅rs | 所有观察值平方的和减去总和平方除以总个数 |
SA | 1s∑ri=1T2i⋅−T2⋅⋅rs | 以行均值代替因素A各水平的具体数值来计算其偏差 |
SB | 1r∑sj=1T2⋅j−T2⋅⋅rs | 以列均值代替因素B各水平的具体数值来计算其偏差 |
SE | ST−SA−SB | 三者之差 |
双因素等重复试验方差分析
在无重复试验中,加入因素A与因素B的交换效应:
方差来源 | 平方和 | 自由度 | 均方 | F比 |
---|---|---|---|---|
因素A | SA | r−1 | S¯A=SAr−1 | F=S¯AS¯E |
因素B | SB | s−1 | S¯B=SBs−1 | F=S¯BS¯E |
交互作用 | SA×B | (r−1)(s−1) | S¯B=SA×B(r−1)(s−1) | F=S¯A×BS¯E |
误差 | SE | rs(t−1) | S¯E=SErs(t−1) | |
总和 | ST | rst−1 |
同样可以使用较为容易理解的公式来计算各项内容:
变量 | 计算式 | 描述 |
---|---|---|
交互和: Tij⋅ | ∑tk=1Xijk,i=1,2,3……,r,j=1,2,3……,s | 在相同因素相同水平下,各重复试验的观察值之和 |
列和: T⋅j⋅ | ∑ri=1∑tk=1Xijk,j=1,2,3……,s | 在因素B相同水平下,A因素各水平的观察值的总和 |
行和: Ti⋅⋅ | ∑sj=1Xij∑tk=1Xijk,i=1,2,3……,r | 在因素A相同水平下,B因素各水平的观察值的总和 |
总和: T⋅⋅⋅ | ∑ri=1∑sj=1∑tk=1Xijk | 所有观察值的总和 |
ST | ∑sj=1∑ri=1∑tk=1X2ijk−T2⋅⋅⋅rst | 所有观察值平方的和减去总和平方除以总个数 |
SA | 1st∑ri=1T2i⋅⋅−T2⋅⋅⋅rst | 以行均值代替因素A各水平的具体数值来计算其偏差 |
SB | 1rt∑sj=1T2⋅j⋅−T2⋅⋅⋅rst | 以列均值代替因素B各水平的具体数值来计算其偏差 |
SA×B | (1t∑ri=1∑sj=1T2ij⋅−T2⋅⋅⋅rst)−SA−SB | 无有效理解,如有高人指点,不胜感激 |
SE | ST−SA−SB−SA×B | 四者之差 |
通过检验等重复试验中的交互作用,其显著差异对方案搭配有着重大作用。