概率统计(四)方差分析

对方差分析的简单理解

方差分析主要研究分类变量作为自变量时,对因变量的影响是否是显著的。
以焦虑症治疗为例,现有两种治疗方案:认知行为疗法(CBT)和眼动脱敏再加工法(EMDR)。我们招募10为焦虑症患者作为志愿者,随机分配一半的人接受为期五周的CBT,另一半接受为期五周的EMDR。在治疗结束时,要求每位患者都填写状态特质焦虑问卷(STAI),也就是一份焦虑度测量的自我评测报告。

  • 在这个实验设计中,治疗方案是两水平(CBT、EMDR)的组间因子,STAI是因变量,治疗方案是自变量
  • 由于在每种治疗方案下观测数相等,因此这种设计也称为均衡设计,若观测数不同,则称作非均衡设计
  • 因为仅有一个类别型变量,因此实验设计又被称为单因素方差分析,或进一步称为单因素组间方差分析,方差分析主要通过F检验来进行效果评测,若治疗方案的F检验显著,则说明五周后两种疗法的STAI得分均值不同。

假设对治疗方案差异和它随时间的改变都感兴趣,则将两个设计结合起来即可:随机分配五位患者到CBT,另外五位到EMDR,在五周和六个月后分别评价他们的STAI结果。

  • 此时时间是两水平(五周、六月)的组内因子,因为每位患者在所有水平下都进行了测量,所以这种统计设计称单因素组内方差分析
  • 又由于每个受试者都不止一次被测量,也称作重复测量方差分析

先假设对治疗方案差异和它随时间的改变都感兴趣则将两个设计结合起来即可:随机分配五位患者到CBT,另外五位到EMDR,在五周和六个月后分别评价它们的STAI结果。

  • 疗法和时间都作为因子时,我们既可分析疗法的影响和时间的影响,又可分析疗法和时间的交互影响,前两个称作主效应,交互部分称作交互效应
  • 当设计包含两个甚至更多的因子时,便是因素方差分析设计,比如两因子时称作双因素方差分析,三因子时称作三因素方差分析,以此类推。
  • 若因子设计包括组内和组间因子,又称作混合模型方差分析,当前的例子就是典型的双因素组合模型方差分析

现将上面的实验设计稍微做些扩展,众所周知,抑郁症对病症治疗有影响,而且抑郁症和焦虑症常常同时出现,即使受试者被随机分配到不同的治疗方案中,在研究开始时,两组疗法中的患者抑郁水平就可能不同,任何治疗后的差异都有可能是最初的抑郁水平不同导致的,而不是实验操作的问题。

  • 抑郁症也可以解释因变量的组间差异,因此它常称为混淆因素,由于你对抑郁症不感兴趣,因此它也被称为干扰变数
  • 假设招募者使用能以一种的自我测评报告,比如白氏抑郁症量表(BDI)记录了他们的抑郁水平,那么你可以在评测疗法类型的影响前,对任何抑郁水平的组间差异进行统计性调整,本案例中BDI为协变量,该设计为协方差分析(ANCOVA)。
  • 以上设计只记录了单个因变量情况(STAI),为增强研究的有效性,可以对焦虑症进行其他的测量,当因变量不止一个时,设计被称作多元方差分析(MANOVA),若协变量也存在,那么就叫多元协方差分析(MANCOVA)。

单因素方差分析

1.推导过程

假设我们现在有若干品种的小麦,要在某一地区播种,我们想知道这些品种的产量有没有显著区别,为此我们先设计了一个田间实验,取一大块地将其分成形状大小都相同的n小块,设供选择的,品种有k个,打算在其中的n1小块种植品种1,n2小块种植品种2等等,n1 + n2 +… + nn = n。

接下来我们使用方差分析的方法去看不同小麦品种的产量是否有显著差异:

  • 设问题中涉及一个因素A,有k个水平,以Yij记第i个水平的第j个观察值,如上例Yij是种植品种i的第j小块地上的亩产量,模型为 Y i j = a i + e i j , i = 1 , . . . , k , j = 1 , . . . , n i Y_{ij} = a_i + e_{ij} ,i = 1, ... , k,j = 1, ... , n_i Yij=ai+eiji=1,...,kj=1,...,ni
  • ai表示水平i的理论平均值,称为水平i的效应。在小麦例子中,ai就是品种i的平均亩产量,eij就是随机误差,并且我们假定 E ( e i j ) = 0 , 0 < V a r ( e i j ) = δ 2 < ∞ , 一 切 e i j 独 立 同 分 布 E(e_{ij}) = 0,0 < Var(e{ij}) = δ^2 < \infty,一切e_{ij}独立同分布 E(eij)=0,0<Var(eij)=δ2<eij
  • 因素A的个水平高低优劣,取决于其理论平均ai的大小。如果ai全相同,表示因素A对所考察的指标Y其实无影响,这时我们说因素A的效应不显著,否则说它显著,因此我们的H0假设为: H 0 : a 1 = a 2 = a 3 = . . . = a k H_0 :a_1 = a_2 = a_3 = ... = a_k H0a1=a2=a3=...=ak
  • 为检验该假设,我们要分析为什么各个Yij会有差异?从模型看,一是各ai可能有差异,若a1 > a2,则Y1j倾向于大于Y2j;二是随机误差的存在,这一分析启发了如下的想法:找一个衡量全部Yij的变异的量: S S = ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y ~ ) 2 , Y ~ = ∑ i = 1 k ∑ j = 1 n i Y i j / n SS = \sum_{i=1}^k \sum_{j=1}^{n_i} (Y_{ij} - \tilde{Y}) ^2,\tilde{Y} = \sum_{i=1}^k \sum_{j=1}^{n_i} Y_{ij} / n SS=i=1kj=1ni(YijY~)2Y~=i=1kj=1niYij/n SS愈大,表示Yij之间的差异越大
  • 接下来把SS分为两部分,一部分表示随机误差的影响,记为SSe;另一部分表示因素A的各水平理论平均值ai不同带来的影响,记为SSA
    关于SSe,先固定一个i,此时对应的所有观测值Yi1,Yi2,…,Yin,他们之间的差异与每个水平的理论平均值不等无关,取决于随机误差,反映这些观察值差异程度的量是 ∑ j = 1 n i ( Y i j − Y ~ ) 2 \sum_{j=1}^{n_i}(Y_{ij} - \tilde Y)^2 j=1ni(YijY~)2,其中 Y ~ i = ( Y i 1 + Y i 2 + . . . + Y i n ) / n i , i = 1 , 2 , . . . , n \tilde Y_i = (Y_{i1} + Y_{i2} + ... + Y_{in}) / n_i,i = 1,2,...,n Y~i=(Yi1+Yi2+...+Yin)/nii=1,
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值