方差分析与回归分析

单因素方差分析

  1. 方差分析就是要比较因素A的r个水平下试验指标理论均值的差异
    H 0 : μ 1 = μ 2 = . . . = μ r , H 1 : μ 1 , μ 2 , . . . , μ r 不 全 相 等 H_0:μ_1=μ_2=...=μ_r, H_1: μ_1,μ_2,...,μ_r不全相等 H0:μ1=μ2=...=μr,H1:μ1,μ2,...,μr
  2. 总离差平方和(整体差异)
    S S T = ∑ i = 1 r ∑ j = 1 n i ( X i j − X ˉ ) 2 SS_T=\sum_{i=1}^r\sum_{j=1}^{n_i}(X_{ij}-\bar X)^2 SST=i=1rj=1ni(XijXˉ)2
  3. 效应平方和(由于因素A引起的差异)
    S S A = ∑ i = 1 r n i ( X ˉ i ⋅ − X ˉ ) 2 SS_A=\sum_{i=1}^rn_i(\bar X_{i\cdot}-\bar X)^2 SSA=i=1rni(XˉiXˉ)2
  4. 误差平方和(由随机误差所引起的差异)
    S S E = ∑ i = 1 r ∑ j = 1 n i ( X i j − X ˉ i ⋅ ) 2 SS_E=\sum_{i=1}^r\sum_{j=1}^{n_i}( X_{ij}-\bar X_{i\cdot})^2 SSE=i=1rj=1ni(XijXˉi)2
  5. 平方和分解公式:
    S S T = S S E + S S A SS_T=SS_E+SS_A SST=SSE+SSA
  6. 定理
    (i) S S E σ 2 ∼ χ 2 ( n − r ) \frac{SS_E}{\sigma ^2} \sim\chi^2(n-r) σ2SSEχ2(nr)
    即误差平方和除以方差(指的是随机误差的方差)的平方服从卡方分布
    (ii) 误差平方和和效应平方和相互独立
    (iii) 效应平方和的期望为 E ( S S A ) = ( r − 1 ) σ 2 + ∑ i = 1 r n i α i 2 E(SS_A)=(r-1)σ^2+\sum_{i=1}^rn_i\alpha_i^2 E(SSA)=(r1)σ2+i=1rniαi2进一步有 S S A σ 2 ∼ χ 2 ( r − 1 ) \frac{SS_A}{\sigma ^2} \sim\chi^2(r-1) σ2SSAχ2(r1)在r个水平下的均值相同条件下,有 F = M S A M S E ∼ F ( r − 1 , n − r ) F=\frac{MS_A}{MS_E}\sim F(r-1,n-r) F=MSEMSAF(r1,nr)其中 M S A = S S A r − 1 , M S E = S S E n − r MS_A=\frac{SS_A}{r-1},MS_E=\frac{SS_E}{n-r} MSA=r1SSA,MSE=nrSSE
  7. 根据以上定理,可以通过 F F F检验来进行方差分析,如果F值比较大的话(落在了{ F ≥ C F\ge C FC}的区间内),那么判定均值存在差异。
  8. 如果 F F F检验是拒绝原假设,那么就要一一检验各均值是否存在差异,即多重比较。(可以通过两个正态总体均值t检验来获得结果)
    t i j = X ˉ i ⋅ − X ˉ j ⋅ M S E ( 1 n i + 1 n j ) ∼ t ( n − r ) t_{ij} = \frac{\bar X_{i\cdot} - \bar X_{j\cdot}}{\sqrt{MS_E(\frac{1}{n_i}+\frac{1}{n_j})}} \sim t(n-r) tij=MSE(ni1+nj1) XˉiXˉjt(nr)
    可以看到,方差用了全部数据 M S E MS_E MSE来估计
  9. 方差分析的前提
    (i) 独立性:各个水平下的总体都是简单随机样本
    (ii) 正态性:各个水平下的总体均为正态总体
    (iii) 方差齐性:各个水平下的总体方差是相同的
  10. 如何检验方差齐性?每组样本都有一个样本标准差,最大样本标准差不超过最小样本标准差的两倍

多因素方差分析

没有交互作用的双因素方差分析

  1. 主要任务是系统分析因素A和因素B对试验指标的影响
    H 01 : α 1 = α 2 = . . . = α r = 0 , H 11 : α 1 , α 2 , . . . , α r 不 全 为 零 H_{01}:\alpha_1=\alpha_2=...=\alpha_r=0, H_{11}: \alpha_1,\alpha_2,...,\alpha_r不全为零 H01:α1=α2=...=αr=0,H11:α1,α2,...,αr
    H 02 : β 1 = β 2 = . . . = β s = 0 , H 12 : β 1 , β 2 , . . . , β s 不 全 为 零 H_{02}:\beta_1=\beta_2=...=\beta_s=0, H_{12}: \beta_1,\beta_2,...,\beta_s不全为零 H02:β1=β2=...=βs=0,H12:β1,β2,...,βs
  2. 方差和分解公式:
    S S T = S S A + S S B + S S E SS_T=SS_A+SS_B+SS_E SST=SSA+SSB+SSE
    其中 S S E = ∑ i = 1 r ∑ j = 1 s ( X i j − X ˉ i ⋅ − X ˉ ⋅ j + X ˉ ) 2 SS_E=\sum_{i=1}^{r}\sum_{j=1}^{s}(X_{ij}-\bar X_{i\cdot}-\bar X_{\cdot j}+\bar X)^2 SSE=i=1rj=1s(XijXˉiXˉj+Xˉ)2
  3. 可以证明在原假设成立的情况下
    F A = M S A / M S E ∼ F ( r − 1 , ( r − 1 ) ( s − 1 ) ) F_A=MS_A/MS_E\sim F(r-1,(r-1)(s-1)) FA=MSA/MSEF(r1,(r1)(s1))
    F B = M S B / M S E ∼ F ( s − 1 , ( r − 1 ) ( s − 1 ) ) ) F_B=MS_B/MS_E\sim F(s-1,(r-1)(s-1))) FB=MSB/MSEF(s1,(r1)(s1)))
    进行 F F F检验即可

有交互作用的双因素方差分析

  1. 因素A有r个水平,因素B有s个水平,在每个因素的各个不同水平下均进行了重复t次试验。(在没有交互作用的双因素方差分析下t=1)
  2. 方差和分解公式:
    S S T = S S A + S S B + S S A B + S S E SS_T=SS_A+SS_B+SS_{AB}+SS_E SST=SSA+SSB+SSAB+SSE
    其中
    S S A B = t ∑ i = 1 r ∑ j = 1 s ( X ˉ i j ⋅ − X ˉ i ⋅ ⋅ − X ˉ ⋅ j ⋅ + X ˉ ) 2 SS_{AB}=t\sum_{i=1}^{r}\sum_{j=1}^{s}(\bar X_{ij\cdot}-\bar X_{i\cdot \cdot}-\bar X_{\cdot j\cdot}+\bar X)^2 SSAB=ti=1rj=1s(XˉijXˉiXˉj+Xˉ)2
  3. 可以证明在原假设成立的情况下
    F A = M S A / M S E ∼ F ( r − 1 , r s ( t − 1 ) ) F_A=MS_A/MS_E\sim F(r-1,rs(t-1)) FA=MSA/MSEF(r1,rs(t1))
    F B = M S B / M S E ∼ F ( s − 1 , r s ( t − 1 ) ) F_B=MS_B/MS_E\sim F(s-1,rs(t-1)) FB=MSB/MSEF(s1,rs(t1))
    F A B = M S A B / M S E ∼ F ( ( r − 1 ) ( s − 1 ) , r s ( t − 1 ) ) F_{AB}=MS_{AB}/MS_E\sim F((r-1)(s-1),rs(t-1)) FAB=MSAB/MSEF((r1)(s1),rs(t1))
    进行 F F F检验即可

相关系数

  1. 相关系数作为两个随机变量之间线性相关程度的描述
    ρ = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} ρ=Var(X)Var(Y) Cov(X,Y)
  2. 在真实情况下,用如下定义的r作为 ρ \rho ρ的估计:
    ρ = s x y s x x s y y \rho=\frac{s_{xy}}{\sqrt{s_{xx}s_{yy}}} ρ=sxxsyy sxy
    其中, s x x s_{xx} sxx s y y s_{yy} syy分别估计随机变量 X X X Y Y Y的方差, s x y s_{xy} sxy估计 X X X Y Y Y的协方差
  3. 此方法得到的相关系数估计基本不为零,但是这不代表真正的相关系数不为零。 为此,可以用皮尔逊统计量来检验X与Y是否显著线性相关皮尔逊统计量定义为
    T = r n − 2 1 − r 2 ∼ t ( n − 2 ) T=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \sim t(n-2) T=1r2 rn2 t(n2)
    用以判断X与Y的相关系数是否显著不为零,即X与Y显著线性相关

一元线性回归

y关于x的回归函数
E ( y ∣ x ) = β 0 + β 1 x E(y|x)=\beta_0+\beta_1x E(yx)=β0+β1x
这说明得到的y关于x的一元线性回归方程 y ^ = β 0 ^ + β 1 ^ x \hat y=\hat {\beta_0}+\hat{\beta_1}x y^=β0^+β1^x中的 y ^ \hat y y^是y的期望的估计,它在平均意义下表示了y随x变化的统计规律性

参数估计及参数的性质

有很多方法可以对模型参数进行估计,这里只介绍最小二乘法(采用极大似然估计也可以给出模型的参数估计)
最小二乘法的想法是最小化
Q ( β 0 , β 1 ) = ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 Q(\beta_0,\beta_1) = \sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2 Q(β0,β1)=i=1n(yiβ0β1xi)2
利用微积分求极值的方法,求偏导为零记得到 β ^ 0 \hat \beta_0 β^0 β ^ 1 \hat \beta_1 β^1

所得到的估计的 β ^ 0 \hat \beta_0 β^0 β ^ 1 \hat \beta_1 β^1有一些性质:
(1) β ^ 1 ∼ N ( β 1 , σ 2 / s x x ) \hat \beta_1 \sim N(β_1,\sigma^2/s_{xx}) β^1N(β1,σ2/sxx)
(2) β ^ 0 ∼ N ( β 0 , ( 1 n + x ˉ 2 s x x ) σ 2 ) \hat \beta_0 \sim N(\beta_0,(\frac{1}{n}+\frac{\bar x^2}{s_{xx}})\sigma^2) β^0N(β0,(n1+sxxxˉ2)σ2)

可以看到还剩 σ \sigma σ的估计,我们用 s 2 s^2 s2来估计 σ 2 \sigma^2 σ2
s 2 = 1 n − 2 ∑ i = 1 n ( y i − y ^ i ) 2 s^2=\frac{1}{n-2}\sum_{i=1}^{n}(y_i-\hat y_i)^2 s2=n21i=1n(yiy^i)2

回归方程的显著性检验

如果 β 1 = 0 \beta_1=0 β1=0,那么说明 E ( y ) E(y) E(y)不随 x x x变化,那么就没有线性关系。
H 0 : β 1 = 0 , H 1 : β 1 ≠ 0 H_0:\beta_1=0, H_1:\beta_1 \neq 0 H0:β1=0,H1:β1=0
常用的检验方法有两种:
(1) t检验法:
T = β ^ 1 s x x s ∼ t ( n − 2 ) T=\frac{\hat \beta_1\sqrt{s_{xx}}}{s} \sim t(n-2) T=sβ^1sxx t(n2)
(2) F检验法:
F = β ^ 1 2 s x x s 2 ∼ F ( 1 , n − 2 ) F=\frac{\hat \beta_1^2s_{xx}}{s^2} \sim F(1,n-2) F=s2β^12sxxF(1,n2)
用以进行 β 1 \beta_1 β1的假设检验

回归系数的区间估计

枢轴量
T = β ^ 1 − β 1 s / s x x ∼ t ( n − 2 ) T=\frac{\hat \beta_1-\beta_1}{s/\sqrt {s_{xx}}}\sim t(n-2) T=s/sxx β^1β1t(n2)

预测

(1) E ( y 0 ) E(y_0) E(y0)的区间估计
y 0 ^ ∼ N ( β 0 + β 1 x 0 , ( 1 n + ( x 0 − x ˉ ) 2 s x x ) σ 2 ) \hat {y_0} \sim N(\beta_0+\beta_1x_0,(\frac{1}{n}+\frac{(x_0-\bar x)^2}{s_{xx}})\sigma^2) y0^N(β0+β1x0,(n1+sxx(x0xˉ)2)σ2)

T = y 0 ^ − E ( y 0 ) s 1 n + ( x 0 − x ˉ ) 2 s x x ∼ t ( n − 2 ) T=\frac{\hat{y_0}-E(y_0)}{s\sqrt{\frac{1}{n}+\frac{(x_0-\bar x)^2}{s_{xx}}}}\sim t(n-2) T=sn1+sxx(x0xˉ)2 y0^E(y0)t(n2)
可得出 E ( y 0 ) E(y_0) E(y0)的置信区间

(2) y 0 y_0 y0的预测区间
T = y 0 ^ − y 0 s 1 + 1 n + ( x 0 − x ˉ ) 2 s x x ∼ t ( n − 2 ) T=\frac{\hat{y_0}-y_0}{s\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{s_{xx}}}}\sim t(n-2) T=s1+n1+sxx(x0xˉ)2 y0^y0t(n2)
可得出 y 0 y_0 y0的置信区间

回归诊断

因为回归有一定假设,接下来我们就要检验这些假设是否成立

模型线性假设的诊断

(1) 可以从变量之间的散点图看大致是否呈线性关系
(2) 可以从残差图发现大致是否呈线性关系,如果发现点的散布无规律,则说明线性假设是合适的

随机误差方差齐性的诊断

(1) 可以观察残差图,判断残差的方差是否随着 x x x的变化而变化
(2) 如果存在变化,需要对 y y y进行变化(取对数、取指数等等)

随机误差独立性地诊断

(1) 可以观察残差图,如果残差的符号改变非常频繁,或者残差图中残差符号出现“集团”的趋势,这说明独立性是不合适的
(2) 如果发现独立性假设不成立,需要修改模型,常用的方法是差分法

随机误差的正态性的诊断

(1) 采用卡方检验对残差进行正态性检验
(2) 如果发现不满足正态性,可以做Box-Cox变换

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值