文章目录
单因素方差分析
- 方差分析就是要比较因素A的r个水平下试验指标理论均值的差异
H 0 : μ 1 = μ 2 = . . . = μ r , H 1 : μ 1 , μ 2 , . . . , μ r 不 全 相 等 H_0:μ_1=μ_2=...=μ_r, H_1: μ_1,μ_2,...,μ_r不全相等 H0:μ1=μ2=...=μr,H1:μ1,μ2,...,μr不全相等 - 总离差平方和(整体差异)
S S T = ∑ i = 1 r ∑ j = 1 n i ( X i j − X ˉ ) 2 SS_T=\sum_{i=1}^r\sum_{j=1}^{n_i}(X_{ij}-\bar X)^2 SST=i=1∑rj=1∑ni(Xij−Xˉ)2 - 效应平方和(由于因素A引起的差异)
S S A = ∑ i = 1 r n i ( X ˉ i ⋅ − X ˉ ) 2 SS_A=\sum_{i=1}^rn_i(\bar X_{i\cdot}-\bar X)^2 SSA=i=1∑rni(Xˉi⋅−Xˉ)2 - 误差平方和(由随机误差所引起的差异)
S S E = ∑ i = 1 r ∑ j = 1 n i ( X i j − X ˉ i ⋅ ) 2 SS_E=\sum_{i=1}^r\sum_{j=1}^{n_i}( X_{ij}-\bar X_{i\cdot})^2 SSE=i=1∑rj=1∑ni(Xij−Xˉi⋅)2 - 平方和分解公式:
S S T = S S E + S S A SS_T=SS_E+SS_A SST=SSE+SSA - 定理
(i) S S E σ 2 ∼ χ 2 ( n − r ) \frac{SS_E}{\sigma ^2} \sim\chi^2(n-r) σ2SSE∼χ2(n−r)
即误差平方和除以方差(指的是随机误差的方差)的平方服从卡方分布
(ii) 误差平方和和效应平方和相互独立
(iii) 效应平方和的期望为 E ( S S A ) = ( r − 1 ) σ 2 + ∑ i = 1 r n i α i 2 E(SS_A)=(r-1)σ^2+\sum_{i=1}^rn_i\alpha_i^2 E(SSA)=(r−1)σ2+i=1∑rniαi2进一步有 S S A σ 2 ∼ χ 2 ( r − 1 ) \frac{SS_A}{\sigma ^2} \sim\chi^2(r-1) σ2SSA∼χ2(r−1)在r个水平下的均值相同条件下,有 F = M S A M S E ∼ F ( r − 1 , n − r ) F=\frac{MS_A}{MS_E}\sim F(r-1,n-r) F=MSEMSA∼F(r−1,n−r)其中 M S A = S S A r − 1 , M S E = S S E n − r MS_A=\frac{SS_A}{r-1},MS_E=\frac{SS_E}{n-r} MSA=r−1SSA,MSE=n−rSSE - 根据以上定理,可以通过 F F F检验来进行方差分析,如果F值比较大的话(落在了{ F ≥ C F\ge C F≥C}的区间内),那么判定均值存在差异。
- 如果
F
F
F检验是拒绝原假设,那么就要一一检验各均值是否存在差异,即多重比较。(可以通过两个正态总体均值t检验来获得结果)
t i j = X ˉ i ⋅ − X ˉ j ⋅ M S E ( 1 n i + 1 n j ) ∼ t ( n − r ) t_{ij} = \frac{\bar X_{i\cdot} - \bar X_{j\cdot}}{\sqrt{MS_E(\frac{1}{n_i}+\frac{1}{n_j})}} \sim t(n-r) tij=MSE(ni1+nj1)Xˉi⋅−Xˉj⋅∼t(n−r)
可以看到,方差用了全部数据 M S E MS_E MSE来估计 - 方差分析的前提
(i) 独立性:各个水平下的总体都是简单随机样本
(ii) 正态性:各个水平下的总体均为正态总体
(iii) 方差齐性:各个水平下的总体方差是相同的 - 如何检验方差齐性?每组样本都有一个样本标准差,最大样本标准差不超过最小样本标准差的两倍
多因素方差分析
没有交互作用的双因素方差分析
- 主要任务是系统分析因素A和因素B对试验指标的影响
H 01 : α 1 = α 2 = . . . = α r = 0 , H 11 : α 1 , α 2 , . . . , α r 不 全 为 零 H_{01}:\alpha_1=\alpha_2=...=\alpha_r=0, H_{11}: \alpha_1,\alpha_2,...,\alpha_r不全为零 H01:α1=α2=...=αr=0,H11:α1,α2,...,αr不全为零
H 02 : β 1 = β 2 = . . . = β s = 0 , H 12 : β 1 , β 2 , . . . , β s 不 全 为 零 H_{02}:\beta_1=\beta_2=...=\beta_s=0, H_{12}: \beta_1,\beta_2,...,\beta_s不全为零 H02:β1=β2=...=βs=0,H12:β1,β2,...,βs不全为零 - 方差和分解公式:
S S T = S S A + S S B + S S E SS_T=SS_A+SS_B+SS_E SST=SSA+SSB+SSE
其中 S S E = ∑ i = 1 r ∑ j = 1 s ( X i j − X ˉ i ⋅ − X ˉ ⋅ j + X ˉ ) 2 SS_E=\sum_{i=1}^{r}\sum_{j=1}^{s}(X_{ij}-\bar X_{i\cdot}-\bar X_{\cdot j}+\bar X)^2 SSE=i=1∑rj=1∑s(Xij−Xˉi⋅−Xˉ⋅j+Xˉ)2 - 可以证明在原假设成立的情况下
F A = M S A / M S E ∼ F ( r − 1 , ( r − 1 ) ( s − 1 ) ) F_A=MS_A/MS_E\sim F(r-1,(r-1)(s-1)) FA=MSA/MSE∼F(r−1,(r−1)(s−1))
F B = M S B / M S E ∼ F ( s − 1 , ( r − 1 ) ( s − 1 ) ) ) F_B=MS_B/MS_E\sim F(s-1,(r-1)(s-1))) FB=MSB/MSE∼F(s−1,(r−1)(s−1)))
进行 F F F检验即可
有交互作用的双因素方差分析
- 因素A有r个水平,因素B有s个水平,在每个因素的各个不同水平下均进行了重复t次试验。(在没有交互作用的双因素方差分析下t=1)
- 方差和分解公式:
S S T = S S A + S S B + S S A B + S S E SS_T=SS_A+SS_B+SS_{AB}+SS_E SST=SSA+SSB+SSAB+SSE
其中
S S A B = t ∑ i = 1 r ∑ j = 1 s ( X ˉ i j ⋅ − X ˉ i ⋅ ⋅ − X ˉ ⋅ j ⋅ + X ˉ ) 2 SS_{AB}=t\sum_{i=1}^{r}\sum_{j=1}^{s}(\bar X_{ij\cdot}-\bar X_{i\cdot \cdot}-\bar X_{\cdot j\cdot}+\bar X)^2 SSAB=ti=1∑rj=1∑s(Xˉij⋅−Xˉi⋅⋅−Xˉ⋅j⋅+Xˉ)2 - 可以证明在原假设成立的情况下
F A = M S A / M S E ∼ F ( r − 1 , r s ( t − 1 ) ) F_A=MS_A/MS_E\sim F(r-1,rs(t-1)) FA=MSA/MSE∼F(r−1,rs(t−1))
F B = M S B / M S E ∼ F ( s − 1 , r s ( t − 1 ) ) F_B=MS_B/MS_E\sim F(s-1,rs(t-1)) FB=MSB/MSE∼F(s−1,rs(t−1))
F A B = M S A B / M S E ∼ F ( ( r − 1 ) ( s − 1 ) , r s ( t − 1 ) ) F_{AB}=MS_{AB}/MS_E\sim F((r-1)(s-1),rs(t-1)) FAB=MSAB/MSE∼F((r−1)(s−1),rs(t−1))
进行 F F F检验即可
相关系数
- 相关系数作为两个随机变量之间线性相关程度的描述
ρ = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} ρ=Var(X)Var(Y)Cov(X,Y) - 在真实情况下,用如下定义的r作为
ρ
\rho
ρ的估计:
ρ = s x y s x x s y y \rho=\frac{s_{xy}}{\sqrt{s_{xx}s_{yy}}} ρ=sxxsyysxy
其中, s x x s_{xx} sxx与 s y y s_{yy} syy分别估计随机变量 X X X与 Y Y Y的方差, s x y s_{xy} sxy估计 X X X与 Y Y Y的协方差 - 此方法得到的相关系数估计基本不为零,但是这不代表真正的相关系数不为零。 为此,可以用皮尔逊统计量来检验X与Y是否显著线性相关皮尔逊统计量定义为
T = r n − 2 1 − r 2 ∼ t ( n − 2 ) T=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \sim t(n-2) T=1−r2rn−2∼t(n−2)
用以判断X与Y的相关系数是否显著不为零,即X与Y显著线性相关
一元线性回归
y关于x的回归函数为
E
(
y
∣
x
)
=
β
0
+
β
1
x
E(y|x)=\beta_0+\beta_1x
E(y∣x)=β0+β1x
这说明得到的y关于x的一元线性回归方程
y
^
=
β
0
^
+
β
1
^
x
\hat y=\hat {\beta_0}+\hat{\beta_1}x
y^=β0^+β1^x中的
y
^
\hat y
y^是y的期望的估计,它在平均意义下表示了y随x变化的统计规律性
参数估计及参数的性质
有很多方法可以对模型参数进行估计,这里只介绍最小二乘法(采用极大似然估计也可以给出模型的参数估计)
最小二乘法的想法是最小化
Q
(
β
0
,
β
1
)
=
∑
i
=
1
n
(
y
i
−
β
0
−
β
1
x
i
)
2
Q(\beta_0,\beta_1) = \sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2
Q(β0,β1)=i=1∑n(yi−β0−β1xi)2
利用微积分求极值的方法,求偏导为零记得到
β
^
0
\hat \beta_0
β^0和
β
^
1
\hat \beta_1
β^1
所得到的估计的
β
^
0
\hat \beta_0
β^0和
β
^
1
\hat \beta_1
β^1有一些性质:
(1)
β
^
1
∼
N
(
β
1
,
σ
2
/
s
x
x
)
\hat \beta_1 \sim N(β_1,\sigma^2/s_{xx})
β^1∼N(β1,σ2/sxx)
(2)
β
^
0
∼
N
(
β
0
,
(
1
n
+
x
ˉ
2
s
x
x
)
σ
2
)
\hat \beta_0 \sim N(\beta_0,(\frac{1}{n}+\frac{\bar x^2}{s_{xx}})\sigma^2)
β^0∼N(β0,(n1+sxxxˉ2)σ2)
可以看到还剩
σ
\sigma
σ的估计,我们用
s
2
s^2
s2来估计
σ
2
\sigma^2
σ2
s
2
=
1
n
−
2
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
s^2=\frac{1}{n-2}\sum_{i=1}^{n}(y_i-\hat y_i)^2
s2=n−21i=1∑n(yi−y^i)2
回归方程的显著性检验
如果
β
1
=
0
\beta_1=0
β1=0,那么说明
E
(
y
)
E(y)
E(y)不随
x
x
x变化,那么就没有线性关系。
H
0
:
β
1
=
0
,
H
1
:
β
1
≠
0
H_0:\beta_1=0, H_1:\beta_1 \neq 0
H0:β1=0,H1:β1=0
常用的检验方法有两种:
(1) t检验法:
T
=
β
^
1
s
x
x
s
∼
t
(
n
−
2
)
T=\frac{\hat \beta_1\sqrt{s_{xx}}}{s} \sim t(n-2)
T=sβ^1sxx∼t(n−2)
(2) F检验法:
F
=
β
^
1
2
s
x
x
s
2
∼
F
(
1
,
n
−
2
)
F=\frac{\hat \beta_1^2s_{xx}}{s^2} \sim F(1,n-2)
F=s2β^12sxx∼F(1,n−2)
用以进行
β
1
\beta_1
β1的假设检验
回归系数的区间估计
枢轴量
T
=
β
^
1
−
β
1
s
/
s
x
x
∼
t
(
n
−
2
)
T=\frac{\hat \beta_1-\beta_1}{s/\sqrt {s_{xx}}}\sim t(n-2)
T=s/sxxβ^1−β1∼t(n−2)
预测
(1)
E
(
y
0
)
E(y_0)
E(y0)的区间估计
y
0
^
∼
N
(
β
0
+
β
1
x
0
,
(
1
n
+
(
x
0
−
x
ˉ
)
2
s
x
x
)
σ
2
)
\hat {y_0} \sim N(\beta_0+\beta_1x_0,(\frac{1}{n}+\frac{(x_0-\bar x)^2}{s_{xx}})\sigma^2)
y0^∼N(β0+β1x0,(n1+sxx(x0−xˉ)2)σ2)
则
T
=
y
0
^
−
E
(
y
0
)
s
1
n
+
(
x
0
−
x
ˉ
)
2
s
x
x
∼
t
(
n
−
2
)
T=\frac{\hat{y_0}-E(y_0)}{s\sqrt{\frac{1}{n}+\frac{(x_0-\bar x)^2}{s_{xx}}}}\sim t(n-2)
T=sn1+sxx(x0−xˉ)2y0^−E(y0)∼t(n−2)
可得出
E
(
y
0
)
E(y_0)
E(y0)的置信区间
(2)
y
0
y_0
y0的预测区间
T
=
y
0
^
−
y
0
s
1
+
1
n
+
(
x
0
−
x
ˉ
)
2
s
x
x
∼
t
(
n
−
2
)
T=\frac{\hat{y_0}-y_0}{s\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{s_{xx}}}}\sim t(n-2)
T=s1+n1+sxx(x0−xˉ)2y0^−y0∼t(n−2)
可得出
y
0
y_0
y0的置信区间
回归诊断
因为回归有一定假设,接下来我们就要检验这些假设是否成立
模型线性假设的诊断
(1) 可以从变量之间的散点图看大致是否呈线性关系
(2) 可以从残差图发现大致是否呈线性关系,如果发现点的散布无规律,则说明线性假设是合适的
随机误差方差齐性的诊断
(1) 可以观察残差图,判断残差的方差是否随着
x
x
x的变化而变化
(2) 如果存在变化,需要对
y
y
y进行变化(取对数、取指数等等)
随机误差独立性地诊断
(1) 可以观察残差图,如果残差的符号改变非常频繁,或者残差图中残差符号出现“集团”的趋势,这说明独立性是不合适的
(2) 如果发现独立性假设不成立,需要修改模型,常用的方法是差分法
随机误差的正态性的诊断
(1) 采用卡方检验对残差进行正态性检验
(2) 如果发现不满足正态性,可以做Box-Cox变换