excel统计分析——协方差分析基本原理

参考资料:生物统计学

        方差分析中,要求除试验因素外的其他条件保持在相同水平上才能对实验结果的差异显著性进行比较,然而有些非试验因素很难或不可能人为控制,此时如果使用方差分析法推断处理其差异显著性,往往会导致错误的结果。为解决试验条件不同对试验结果的影响,统计学上将回归分析和方差分析结合起来,通过回归关系排除试验条件对试验结果的影响,称为协方差分析(analysis of covariance,ANCOVA)。由于校正后的结果是应用统计方法将试验条件控制一致而达到的,故协方差分析的实质是一种统计控制(statistical control)。

协方差分析的基本原理如下

(1)基本思想

        协方差分析是把方差分析与回归分析结合起来的一种统计分析方法,用于比较一个变量y在一个因素或几个因素不同水平上的差异,但这个变量在受试验因素影响的同时,还受到另外一个变量x的影响,而且变量x的取值难以人为控制,不能作为方差分析中的一个因素来处理。此时如果x和y之间可以建立回归关系,则可用协方差分析的方法排除x对y的影响,然后进行方差分析对各因素水平的影响作出统计推断。在协方差分析中,y对因变量(dependent variable),x为协变量(covariate)。

        协方差分析的核心思想是通过对因变量y的值进行调整,消除协变量x的影响,从而能对试验因素不同水平的影响进行统计检验。为此,首先需要判断协变量x对因变量y是否存在影响,如果影响显著,则需要去除其影响后对试验结果进行检验;如果影响不显著,则直接对试验结果进行检验

        统计学上研究两个变量是否存在影响的方法为回归分析,所以进行协方差分析时首先对数据进行回归分析,如果回归关系显著,说明变量x对变量y的影响显著,需对试验结果进行校正后进行方差分析;如果回归关系不显著,说明变量x对变量y的影响不显著,可直接对试验结果进行方差分析。

(2)协方差分析的数学模型

        假设试验有k个处理,观测指标y为因变量,x为协变量,每个处理设置n次重复,每组内均有n对观测值x,y,则该资料为具有kn对观测值的双变量资料。

        在协方差分析中,因变量的每个观察值可用以下线性数学模型表示:

y_{ij}=\mu+\alpha_i+\beta(x_{ij}-\bar{x})+\varepsilon _{ij}

其中:i=1,2,...,k;j=1,2,...,n;y_ij为试验因素第i水平的第j次观测值;x_ij为试验因素第i水平的第j次观测的协变量取值;\bar{x}为x_ij的总平均数;μ为y_ij的总平均数;\alpha_i为第i水平的效应;β是y对x的线性回归系数;\varepsilon _{ij}为随机误差。且满足以下基本假定:①\varepsilon _{ij}独立,且服从正态分布N(0,\sigma^2);②β≠0,即y与x之间存在线性关系,且水平回归系数相等,即协变量的影响不随水平的变化而变化;③处理效应之和为0,即\sum \alpha_i=0。试验因素为固定因素;如果为随机因素,则处理效应的方差为0。

(3)协方差分析的基本假定

        ①x是固定的变量,因而处理效应\alpha_i属于固定模型。

        ②\varepsilon _{ij}独立(与αi无关),且服从正态分布N(n,\sigma^2)。即各处理的离回归方差无显著差异(同质)。

        ③各处理的(x,y)总体是线性的,且具有相同的回归系数β≠0,因而各处理总体的回归是一组平行的直线。对样本而言,各误差项的回归系数本身显著,但各回归系数bi之间无显著差异。

(4)协方差分析的步骤

①平方和、乘积和与自由度的分解

        因变量y的总变异包括处理效应、协变量x的影响和随机误差三部分,根据直线回归和方差的计算方法,需要对不同变异源的平方和、乘积和与自由度进行分解,计算均方并进行统计检验。

        平方和与自由度的分解与方差分析部分相同。参照平方和分解的方法,可将乘积和也分解为总变异乘积和SP_T、处理间乘积和SP_t及误差乘积和SP_e三部分,即

SP_T=\sum \sum(x-\bar{x})(y-\bar{y})=\sum \sum xy-T_xT_y/(kn)

SP_t=n\sum(\bar{x_{i.}}-\bar{x})(\bar{y_{i.}}-\bar{y})=\sum(T_{x_{i.}}T_{y_{i.}})/n-T_xT_y/(kn)

SP_e=\sum\sum(x-\bar{x_{i.}})(y-\bar{y_{i.}})=\sum\sum xy-\sum(T_{x_{i.}}T_{y_{i.}})/n

②回归系数的计算和回归显著性检验

        处理间的差异是由于处理效应αi不同引起的,而误差则包括协变量x的影响和随机误差两部分,所以回归系数的计算在组内进行,于是有:

b^*=SP_e/SS_{e_{x}}

        回归关系的显著性可以用F检验或t检验进行。这是误差项回归自由度df_{e_U}=1,其回归平方和为:

U_e=SS_{e_y}-b^*SP_e=SP_e^2/SS_{e_x}

误差项离回归平方和为:

Q_e=SS_{e_{y}}-U_{e_y}=SS_{e_y}-SP_e^2/SS_{e_x}

离回归自由度为:

df_{e_Q}=df_e-df_{e_U}=k(n-1)-1

用F检验进行检验时,df_1=df_{e_U}=1df_2=df_{e_U}=k(n-1)-1

统计量:

F=[k(n-1)-1]U_e/Q_e

③矫正平均数的差异显著性检验

        如果回归关系不显著,直接对试验结果进行方差分析;如果回归关系显著,则用回归系数对y进行矫正,消除x的影响后,对校正后的数据进行方差分析。

        要检验校正后的y值差异的显著性,在进行平方和的计算时,并不需要将各矫正的y值求出后重新计算,统计学上已证明,矫正后的平方和、误差平方和及自由度等于相应变异项的离回归平方和及自由度。于是平方和及自由度计算如下:

SS_T'=SS_{T_y}-SP_T^2/SS_{T_x}             df_T'=(nk-1)-1=nk-2

SS_e'=SS_{e_y}-SP_e^2/SS_{e_x}                                  df_t'=k-1               

SS_t'=SS_T'-SS_e'                                              df_e'=k(n-1)-1

根据平方和、自由度分别计算处理均方和误差均方,并进行F检验。

④矫正平均数的多重比较

        如果F检验处理间差异显著,需进行多重比较。进行多重比较时,需使用矫正后的平均数。矫正公式为:

 \bar{y_i}'=\bar{y_i}-b^*(\bar{x_i}-x)

        矫正平均数的比骄傲可以使用t检验、LSD法和Duncan法等。用t检验进行比较时,统计量

t=(\bar{y_i}'-\bar{y_j}')/s_{\bar{d}}'

其中,s_{\bar{d}}'为两矫正平均数差数间的标准误,计算公式为:

s_{\bar{d}}'=\sqrt{MS_e'[\frac{2}{n}+\frac{(\bar{x_i}-\bar{x_j})^2}{SS_{e_x}}]}

        当误差自由度较大(df_e≥20)且x的变异较小时,可采用LSD法、Duncan法等。这时两矫正平均数差数间的标准误不再根据两组样本x均值差计算。

对于LSD法,有

s_{\bar{d}}'=\sqrt{\frac{2MS_e'}{n}[1+\frac{SS_{t_x}}{(k-1)SS_{e_x}}]}

对于Duncan法,有

s_{\bar{d}}'=\sqrt{\frac{MS_e'}{n}[1+\frac{SS_{t_x}}{(k-1)SS_{e_x}}]}

  • 13
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值