《误差理论》——回归分析(1)

回归分析

为了寻找两个变量或多个变量之间的内在关系

1、一元线性回归

一元线性回归方程 y ^ = b 0 + b x \hat{y}=b_0+bx y^=b0+bx残差 v t = y t − y ^ t = y t − b 0 − b x t , t = 1 , 2 , . . . , N v_t=y_t-\hat{y}_t=y_t-b_0-bx_t,t=1,2,...,N vt=yty^t=ytb0bxt,t=1,2,...,N
矩阵形式 Y = ( y 1 y 2 . . . y N ) Y=\left( \begin{matrix} y_1 \\ y_2 \\ ... \\ y_N \\ \end{matrix} \right) Y= y1y2...yN X = ( 1 x 1 1 x 2 . . . . . . 1 x N ) X=\left( \begin{matrix} 1 & x_1 \\ 1 & x_2 \\ ...&... \\ 1 & x_N \\ \end{matrix} \right) X= 11...1x1x2...xN b = ( b 0 b ) b=\left( \begin{matrix} b_0 \\ b \\ \end{matrix} \right) b=(b0b) V = ( v 1 v 2 . . . v N ) V=\left( \begin{matrix} v_1 \\ v_2 \\ ... \\ v_N \\ \end{matrix} \right) V= v1v2...vN 其中 b = ( X T X ) − 1 X T Y = C B b=(X^TX)^{-1}X^TY=CB b=(XTX)1XTY=CB。令 A = X T X A=X^TX A=XTX,则 C = A − 1 , B = X T Y C=A^{-1},B=X^TY C=A1,B=XTY,将 C , B C,B C,B带入 b = C B b=CB b=CB中可得 b 0 , b b_0,b b0,b b = N ∑ t = 1 N x t y t − ( ∑ t = 1 N x t ) ( ∑ t = 1 N x t y t ) N ∑ t = 1 N x t 2 − ( ∑ t = 1 N x t ) 2 = l x y l x x b=\frac{N\sum_{t=1}^{N}x_ty_t-(\sum_{t=1}^Nx_t)(\sum_{t=1}^Nx_ty_t)}{N\sum_{t=1}^Nx_t^2-(\sum_{t=1}^Nx_t)^2}=\frac{l_{xy}}{l_{xx}} b=Nt=1Nxt2(t=1Nxt)2Nt=1Nxtyt(t=1Nxt)(t=1Nxtyt)=lxxlxy b 0 = ( ∑ t = 1 N x t 2 ) ( ∑ t = 1 N y t ) − ( ∑ t = 1 N x t ) ( ∑ t = 1 N x t y t ) N ∑ t = 1 N x t 2 − ( ∑ t = 1 N x t ) 2 = y ˉ − b x ˉ b_0=\frac{(\sum_{t=1}^Nx_t^2)(\sum_{t=1}^Ny_t)-(\sum_{t=1}^Nx_t)(\sum_{t=1}^Nx_ty_t)}{N\sum_{t=1}^Nx_t^2-(\sum_{t=1}^Nx_t)^2}=\bar{y}-b\bar{x} b0=Nt=1Nxt2(t=1Nxt)2(t=1Nxt2)(t=1Nyt)(t=1Nxt)(t=1Nxtyt)=yˉbxˉ其中, x ˉ = 1 N ∑ t = 1 N x t \bar{x}=\frac{1}{N}\sum_{t=1}^{N}x_t xˉ=N1t=1Nxt y ˉ = 1 N ∑ t = 1 N y t \bar{y}=\frac{1}{N}\sum_{t=1}^{N}y_t yˉ=N1t=1Nyt l x x = ∑ t = 1 N ( x t − x ˉ ) 2 = ∑ t = 1 N x t 2 − 1 N ( ∑ t = 1 N x t ) 2 l_{xx}=\sum_{t=1}^N(x_t-\bar{x})^2=\sum_{t=1}^Nx_t^2-\frac{1}{N}(\sum_{t=1}^Nx_t)^2 lxx=t=1N(xtxˉ)2=t=1Nxt2N1(t=1Nxt)2 l x y = ∑ t = 1 N ( x t − x ˉ ) ( y t − y ˉ ) = ∑ t = 1 N x t y t − 1 N ( ∑ t = 1 N x t ) ( ∑ t = 1 N y t ) l_{xy}=\sum_{t=1}^N(x_t-\bar{x})(y_t-\bar{y})=\sum_{t=1}^Nx_ty_t-\frac{1}{N}(\sum_{t=1}^{N}x_t)(\sum_{t=1}^{N}y_t) lxy=t=1N(xtxˉ)(ytyˉ)=t=1NxtytN1(t=1Nxt)(t=1Nyt) l y y = ∑ t = 1 N ( y t − y ˉ ) 2 = ∑ t = 1 N y t 2 − 1 N ( ∑ t = 1 N y t ) 2 l_{yy}=\sum_{t=1}^{N}(y_t-\bar{y})^2=\sum_{t=1}^{N}y_t^2-\frac{1}{N}(\sum_{t=1}^{N}y_t)^2 lyy=t=1N(ytyˉ)2=t=1Nyt2N1(t=1Nyt)2 ⟹ y ^ − y ˉ = b ( x − x ˉ ) \Longrightarrow\hat{y}-\bar{y}=b(x-\bar{x}) y^yˉ=b(xxˉ)

2、回归方程的稳定性

σ \sigma σ为测量数据 y y y的残余标准差,则 σ y ^ = σ 1 N + ( x − x ˉ ) 2 l x x \sigma_{\hat{y}}=\sigma\sqrt{\frac{1}{N}+\frac{(x-\bar{x})^2}{l_{xx}}} σy^=σN1+lxx(xxˉ)2
从上式可以看出,回归值的波动大小不仅与残余标准差 σ \sigma σ有关,而且还取决于实验次数 N N N x x x的取值范围—— N N N越大, x x x取值范围越小,回归值 y ^ \hat{y} y^精度越高

3、回归问题的方差分析

N N N个观测值之间的变差,可用观测值 y y y与其算数平均值 y ˉ \bar{y} yˉ的离差平方和来表示,即总的离差平方和 S = ∑ t = 1 N ( y t − y ˉ ) = l y y = ∑ t = 1 N ( y ^ t − y ˉ ) 2 + ∑ t = 1 N ( y ^ t − y t ) 2 = U + Q S=\sum_{t=1}^N(y_t-\bar{y})=l_{yy}=\sum_{t=1}^N(\hat{y}_t-\bar{y})^2+\sum_{t=1}^N(\hat{y}_t-y_t)^2=U+Q S=t=1N(ytyˉ)=lyy=t=1N(y^tyˉ)2+t=1N(y^tyt)2=U+Q其中回归平方和 U U U: U = ∑ t = 1 N ( y ^ t − y ˉ ) 2 U=\sum_{t=1}^N(\hat{y}_t-\bar{y})^2 U=t=1N(y^tyˉ)2反映在 y y y总的变差中由于 x x x y y y的线性关系而引起 y y y变化的部分 回归平方和 U = ∑ t = 1 N ( y ^ t − y ˉ ) 2 回归平方和U=\sum_{t=1}^N(\hat{y}_t-\bar{y})^2 回归平方和U=t=1N(y^tyˉ)2残余平方和 Q Q Q Q = ∑ t = 1 N ( y ^ t − y t ) 2 Q=\sum_{t=1}^N(\hat{y}_t-y_t)^2 Q=t=1N(y^tyt)2反映除 x x x y y y的线性影响之外的一切因素对 y y y的变差作用。 U = ∑ t = 1 N ( y ^ t − y ˉ ) 2 = ∑ t = 1 N ( b 0 + b x t − b 0 − b x ˉ ) 2 = b 2 ∑ t = 1 N ( x t − x ˉ ) 2 = b ∑ t = 1 N ( x t − x ˉ ) ( y ^ t − y ˉ ) = b l x y U=\sum_{t=1}^N(\hat{y}_t-\bar{y})^2=\sum_{t=1}^N(b_0+bx_t-b_0-b\bar{x})^2=b^2\sum_{t=1}^N(x_t-\bar{x})^2=b\sum_{t=1}^N(x_t-\bar{x})(\hat{y}_t-\bar{y})=bl_{xy} U=t=1N(y^tyˉ)2=t=1N(b0+bxtb0bxˉ)2=b2t=1N(xtxˉ)2=bt=1N(xtxˉ)(y^tyˉ)=blxy Q = ∑ t = 1 N ( y ^ t − y t ) 2 = S − U = l y y − b l x y Q=\sum_{t=1}^N(\hat{y}_t-y_t)^2=S-U=l_{yy}-bl_{xy} Q=t=1N(y^tyt)2=SU=lyyblxy自由度 v S = v U + v Q v_S=v_U+v_Q vS=vU+vQ其中, v s = N − 1 v_s=N-1 vs=N1, v u v_u vu对应自变量个数, N N N表示 N N N次检验

4、回归方程显著性检验

F = U / v U Q / v Q F=\frac{U/v_U}{Q/v_Q} F=Q/vQU/vU对于一元线性回归 F = U / 1 Q / N − 2 F=\frac{U/1}{Q/N-2} F=Q/N2U/1通过 v 1 v_1 v1 v 2 v_2 v2 F F F分布表,需查三种不同显著性水平 α \alpha α的数值,记为 F a ( v 1 , v 2 ) F_a(v_1,v_2) Fa(v1,v2)其中一元,所以为 F a ( 1 , N − 2 ) F_a(1,N-2) Fa(1,N2)

(a)、 F ≥ F 0.01 ( 1 , N − 2 ) F\ge F_{0.01}(1,N-2) FF0.01(1,N2),认为回归是高度显著的(或称在0.01水平上显著)
(b)、 F 0.05 ( 1 , N − 2 ) ≤ F < F 0.01 ( 1 , N − 2 ) F_{0.05}(1,N-2)\le F<F_{0.01}(1,N-2) F0.05(1,N2)F<F0.01(1,N2),认为回归是显著的(或称在0.05水平上显著)
©、 F 0.10 ( 1 , N − 2 ) ≤ F < F 0.05 ( 1 , N − 2 ) F_{0.10}(1,N-2)\le F<F_{0.05}(1,N-2) F0.10(1,N2)F<F0.05(1,N2),认为回归在0.10水平上显著
(d)、 F < F 0.01 ( 1 , N − 2 ) F<F_{0.01}(1,N-2) F<F0.01(1,N2),认为回归不显著,此时 y y y x x x的线性关系不密切

5、残余方差与残余标准差

残余方差:残余平方和 Q Q Q除以它的自由度 v Q v_Q vQ: σ 2 = Q v Q = Q N − 2 \sigma^2=\frac{Q}{v_Q}=\frac{Q}{N-2} σ2=vQQ=N2Q残余标准差: σ = Q N − 2 \sigma=\sqrt{\frac{Q}{N-2}} σ=N2Q

6、方差分析表(一元线性回归)

来源平方和自由度方差 F F F显著性
回归 U = b l x y U=bl_{xy} U=blxy1 F = U / 1 Q / N − 2 F=\frac{U/1}{Q/N-2} F=Q/N2U/1——
残余 Q = l y y − b l x y Q=l_{yy}-bl_{xy} Q=lyyblxy N − 2 N-2 N2 σ 2 = Q N − 2 \sigma^2=\frac{Q}{N-2} σ2=N2Q F = U / 1 Q / N − 2 F=\frac{U/1}{Q/N-2} F=Q/N2U/1——
总计 S = l y y S=l_{yy} S=lyy N − 1 N-1 N1——————

7、重复实验情况

设取 N N N个实验点,每个实验点都重复 m m m次实验, S = U + Q L + Q E , v S = v U + v L + v E S=U+Q_L+Q_E,v_S=v_U+v_L+v_E S=U+QL+QE,vS=vU+vL+vE其中, Q L Q_L QL为失拟平方和, Q L Q_L QL为误差平方和。 S = ∑ t = 1 N ∑ i = 1 m ( y t i − y ˉ ) 2 , v s = N m − 1 S=\sum_{t=1}^N\sum_{i=1}^m(y_{ti}-\bar{y})^2,v_s=N_m-1 S=t=1Ni=1m(ytiyˉ)2,vs=Nm1 U = m ∑ t = 1 N ( y ^ t − y ˉ ) 2 , v u = 1 U=m\sum_{t=1}^N(\hat{y}_{t}-\bar{y})^2,v_u=1 U=mt=1N(y^tyˉ)2,vu=1 Q E = ∑ t = 1 N ∑ i = 1 m ( y t i − y ˉ t ) 2 , v Q E = N ( m − 1 ) Q_E=\sum_{t=1}^N\sum_{i=1}^m(y_{ti}-\bar{y}_t)^2,v_{Q_E}=N(m-1) QE=t=1Ni=1m(ytiyˉt)2,vQE=N(m1) Q L = m ∑ t = 1 N ( y ˉ t − y ˉ ) 2 , v Q L = N − 2 Q_L=m\sum_{t=1}^N(\bar{y}_{t}-\bar{y})^2,v_{Q_L}=N-2 QL=mt=1N(yˉtyˉ)2,vQL=N2
简化后: S = U + Q L + Q E , v s = N m − 1 S=U+Q_L+Q_E,v_s=N_m-1 S=U+QL+QE,vs=Nm1 U = m b l x y , v u = 1 U=mbl_{xy},v_u=1 U=mblxy,vu=1 Q E = ∑ t = 1 N ∑ i = 1 m ( y t i − y ˉ t ) 2 , v Q E = N ( m − 1 ) Q_E=\sum_{t=1}^N\sum_{i=1}^m(y_{ti}-\bar{y}_t)^2,v_{Q_E}=N(m-1) QE=t=1Ni=1m(ytiyˉt)2,vQE=N(m1) Q L = m l y y − U , v Q L = N − 2 Q_L=ml_{yy}-U,v_{Q_L}=N-2 QL=mlyyU,vQL=N2

8、方差分析表(多次重复实验下的一元线性回归)

来源平方和自由度方差 F F F显著性
回归 U = m b l x y U=mbl_{xy} U=mblxy1 U / 1 U/1 U/1 F F F——
失拟 Q L = m b l y y − U Q_L=mbl_{yy}-U QL=mblyyU N − 2 N-2 N2 Q L / N − 2 {Q_L}/{N-2} QL/N2 F 1 F_1 F1——
误差 Q E = ∑ t = 1 N ∑ i = 1 m ( y t i − y ˉ t ) 2 Q_E=\sum_{t=1}^N\sum_{i=1}^m(y_{ti}-\bar{y}_t)^2 QE=t=1Ni=1m(ytiyˉt)2 N ( m − 1 ) N(m-1) N(m1) Q E / ( N ( m − 1 ) ) {Q_E}/({N(m-1)}) QE/(N(m1))————
总计 S = U + Q L + Q E S=U+Q_L+Q_E S=U+QL+QE N m − 1 Nm-1 Nm1——————

其中 F = U / v U Q E / v Q E , F 1 = Q L / v Q L Q E / v Q E F=\frac{U/v_U}{Q_E/v_{Q_E}},F_1=\frac{Q_L/v_{Q_L}}{Q_E/v_{Q_E}} F=QE/vQEU/vU,F1=QE/vQEQL/vQL(1)、若失拟平方和得 F 1 F_1 F1检验结果高度显著,则失拟误差不可忽略,有以下几种可能:
(a)、影响 y y y得除 x x x外,至少还有一个不可忽略得因素
(b)、 y y y x x x是曲线关系
©、 y y y x x x无关
总之,“一元线性回归数学模型与实际情况不符合”。失拟平方和 Q L Q_L QL或失拟方差反映了拟合误差,通常称为模型误差。

(2)、若失拟平方和的 F 1 F_1 F1检验结果不显著,说明非线性误差(相对于实验误差)很小,基本上是由于实验误差等随机因素引起,所以接着对回归平方和进行 F 2 F_2 F2检验,即 F 2 = U / v u ( Q L + Q E ) ( v Q L + v Q E ) F_2=\frac{U/v_u}{(Q_L+Q_E)(v_{Q_L}+v_{Q_E})} F2=(QL+QE)(vQL+vQE)U/vu(a)、若 F 2 F_2 F2结果显著,一元回归方程拟合的好
(b)、对于给定的显著性水平 α \alpha α,若 F 2 F_2 F2结果不显著,则
⋅ \cdot 没有什么因素对 y y y有系统的影响
⋅ \cdot 实验误差过大

(3) F 1 F_1 F1检验结果显著
Q E Q_E QE U U U进行 F 2 F_2 F2检验 F 2 = U / v U Q E / v Q E F_2=\frac{U/v_U}{Q_E/v_{Q_E}} F2=QE/vQEU/vU再用 Q E + Q L = Q Q_E+Q_L=Q QE+QL=Q U U U进行 F 2 F_2 F2检验 F 2 = U / v U Q / v Q F_2=\frac{U/v_U}{Q/v_Q} F2=Q/vQU/vU(“视情况而定”: F 2 F_2 F2都显著,拟合不好,但小于实验要求即可)

  • 10
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三天后的承诺

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值