18 多元回归与模型回归

18 多元回归与模型回归

1.总体多元回归的定义

在这里插入图片描述

2.多元回归的指标

  对于一个二元的线性回归: y ^ = b 0 + b 1 x 1 + b 2 x 2 \hat{y}=b_{0}+b_{1} x_{1}+b_{2} x_{2} y^=b0+b1x1+b2x2我们说它的残差是 %y-\hat{y}$,。在一元线性回归中,我们说这是实际数据点与回归线之间的垂直距离,在多元回归中,我们说这是数据点和回归平面(或超平面)之间的垂直距离。此外,3类平方和还有R方依然可以使用:
S S E = ∑ ( y − y ^ ) 2 S S R = ∑ ( y ^ − y ‾ ) 2 S S T = ∑ ( y − y ‾ ) 2 R 2 = S S R S S T \begin{aligned} \mathrm{SSE} &=\sum(y-\hat{y})^{2} \\ \mathrm{SSR} &=\sum(\hat{y}-\overline{y})^{2} \\ \mathrm{SST} &=\sum(y-\overline{y})^{2} \end{aligned} \\ R^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}} SSESSRSST=(yy^)2=(y^y)2=(yy)2R2=SSTSSR
  我们给出方差分析表:
在这里插入图片描述
(测试统计F)
  看R方的变化,只要有新的预测变量加入模型时,R2的值总是会上升。如果新变量是有用的,则R’的值将会显著增加;如果新变量名不起作用,则R2值几乎不会有增加。
  看标准误差s的变化,它的变化和R方不一样。如果新加入的变量对预测变量有用的话,这个值就会减小,如果没用,就会增加。这就使得我们可以更好的考察是否该将某个值加入模型有很好的帮助。

3. 关于误差项的假设

①零均值假设。误差项 ε \varepsilon ε 是一个随机变量,其均值或期望值为0。换句话说, E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0
②常数方差假设。误差项 ε \varepsilon ε的方差定义为 σ 2 \sigma^{2} σ2,无论 x 1 , x 1 , … , x m x_{1}, x_{1}, \dots, x_{m} x1,x1,,xm 取何值,均为常量。
③独立性假设。误差项 ε \varepsilon ε 的值具有独立性。
④正态假设。误差项 ε \varepsilon ε 是一个满足正态分布的随机变量。

4. 响应变量 y 行为假设的含义

①基于零均值假设,我们有:
E ( y ) = E ( β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β m x m + ε ) = E ( β 0 ) + E ( β 1 x 1 ) + ⋯ + E ( β m x m ) + E ( ε ) = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β m x m \begin{aligned} E(y) &=E\left(\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{m} x_{m}+\varepsilon\right) \\ &=E\left(\beta_{0}\right)+E\left(\beta_{1} x_{1}\right)+\dots+E\left(\beta_{m} x_{m}\right)+E(\varepsilon) \\ &=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{m} x_{m} \end{aligned} E(y)=E(β0+β1x1+β2x2++βmxm+ε)=E(β0)+E(β1x1)++E(βmxm)+E(ε)=β0+β1x1+β2x2++βmxm
即,对 ∣ x 1 , x 1 , … , x m | x_{1}, x_{1}, \ldots, x_{m} x1,x1,,xm 的每个值集, y y y 的均值处于回归线上。
②基于方差为常数的假设,我们给出y的方差 V a r ( y ) Var(y) Var(y)
Var ⁡ ( y ) = Var ⁡ ( β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β m x m + ε ) = Var ⁡ ( ε ) = σ 2 \operatorname{Var}(y)=\operatorname{Var}\left(\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{m} x_{m}+\varepsilon\right)=\operatorname{Var}(\varepsilon)=\sigma^{2} Var(y)=Var(β0+β1x1+β2x2++βmxm+ε)=Var(ε)=σ2
即,无论预测变量 ∣ x 1 , x 1 , … , x m | x_{1}, x_{1}, \ldots, x_{m} x1,x1,,xm 取何值,y的方差始终为常数。
③基于独立性假设,可得出,对, ∣ x 1 , x 1 , … , x m | x_{1}, x_{1}, \ldots, x_{m} x1,x1,,xm 的任意特定值集, y y y 值也具有独立性。
④基于正态分布假设,可得出, y y y 也是满足正态分布的随机变量。换句话说,响应变量 y y y,的值是独立的正态分布随机变量,其均值为: β 0 + β 1 x 1 + β 2 x 2 + … + β m x m \beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{m} x_{m} β0+β1x1+β2x2++βmxm,方差为 σ 2 \sigma^2 σ2

5.多元回归推理

我们将验证如下5个推理方法:
①在存在其他预测变量 x ( i ) x_{(i)} x(i) 的情况下,响应变量 y y y 与特定预测变量 x x x ,之间关系的 t-检捡。其中 x ( i ) = x 1 , x 2 , … , x i − 1 , x i + 1 , … , + x m x_{(i)}=x_{1}, x_{2}, \ldots, x_{i-1}, x_{i+1}, \ldots,+x_{m} x(i)=x1,x2,,xi1,xi+1,,+xm表示除 x i x_i xi ,之外的所有预测变量集。
②总体回归显著性的 F-检验。
③第 i i i 个预测变量斜率 β i \beta_i βi的置信区间。
④在给定特定预测变量值集石, x 1 , x 2 , … , x m x_{1}, x_{2}, \dots, x_{m} x1,x2,,xm时,响应变量 y y y 均值的置信区间。
⑤在给定特定预测变量值集高, x 1 , x 2 , … , x m x_{1}, x_{2}, \dots, x_{m} x1,x2,,xm时,响应变量 y y y 为随机变量取值时的预测区间。

6.y 与 x i x_i xi之间的关系的 t-检验

该检验的假设如下:
H 0 : β i = 0 H a 2 : β i ≠ 0 \begin{array}{ll}{H_{0} : \beta_{i}}{=0} \\ {H_{\mathrm{a}^{2}}}: {\beta_{i} \neq 0}\end{array} H0:βi=0Ha2:βi̸=0
该假设所隐含的模型如下:
H 0 H_0 H0 情况下: β 0 + β 1 x 1 + ⋯ + 0 + ⋯ + β m x m + ε \beta_{0}+\beta_{1} x_{1}+\cdots+0+\cdots+\beta_{m} x_{m}+\varepsilon β0+β1x1++0++βmxm+ε
H 1 H_1 H1 情况下: β 0 + β 1 x 1 + ⋯ + β i x i + ⋯ + β m x m + ε \beta_{0}+\beta_{1} x_{1}+\cdots+\beta_{i} x_{i}+\cdots+\beta_{m} x_{m}+\varepsilon β0+β1x1++βixi++βmxm+ε
  注意两个模型的唯一差别是有没有第 i i i 项,除此以外,模型中其他项都是相同的。因此,对 t-检验结果的解释必须包括其他保持不变的预测变量作为参考。
  零假设情况下,检验统计量 t = b i s b i t=\frac{b_{i}}{s_{b_i}} t=sbibi,总满足自由度为 n − m − 1 n-m-1 nm1 的 t 分布,其中 s b i s_{b_{i}} sbi表示第 i i i 个预测变量斜率的标准误差。

7.多元回归 t-检验的例子

在这里插入图片描述
①含糖量与营养等级

  • H 0 : β 1 = 0 H_{0} : \beta_{1}=0 H0:β1=0模型: y = β 0 + β 2 ( 纤 维 含 量 ) + ε y=\beta_{0}+\beta_{2}(纤维含量)+\varepsilon y=β0+β2()+ε
  • H a : β 1 ≠ 0 H_{\mathrm{a}} : \beta_{1} \neq 0 Ha:β1̸=0 模型: y = β 0 + β 1 ( 含 糖 量 ) + β 2 ( 纤 维 含 量 ) + ε y=\beta_{0}+\beta_{1}(含糖量)+\beta_2(纤维含量)+\varepsilon y=β0+β1()+β2()+ε
      图中,我们们可以看到 “Sugars”(含糖量) 的 Coedf列的值 b 1 = − 2.2436 b_1=-2.2436 b1=2.2436
      在 “Sugars”(含糖量) 行的 SE Coedf 列可得到含糖量的斜率的标准误差值: s b 1 = 0.1632 s_{b_{1}}=0.1632 sb1=0.1632
      在 “Sugars”(含糖量) 行的 T 列可得到 t-统计值, 即 t-检验的检验统计量, t = b 1 s b 1 = − 2.2436 0.1632 = − 13.75 t=\frac{b_{1}}{s_{b_1}}=\frac{-2.2436}{0.1632}=-13.75 t=sb1b1=0.16322.2436=13.75
      在 “Sugars”(含糖量) 行的 P 列可获得 t-统计量的 p-值。因为双尾检验,p-值按照以下形式获得: p − 值 = P ( ∣ t ∣ > ∣ t o b s ∣ ) p-值 = P(|t|>|t_{obs}|) p=P(t>tobs),其中 t o b s t_{obs} tobs 表示回归结果 t-统计量的观察智。此处,$ p-值=P(|t|>|t_obs|)=P(|t|>|-13.75|)\approx 0.000KaTeX parse error: Expected 'EOF', got '&' at position 23: … p-值不会精确地等于 0。 &̲emsp; p-值方…p-值\cong 0$,比所有合理的显著性阀值都要小。因此结论为拒绝零假设。对该结论的解释是,在纤维含量存在的情况下,有证据表明营养等级与含糖量之间存在线性关系。
    ②纤维含量与营养等级
  • H 0 : β 2 = 0 H_{0} : \beta_{2}=0 H0:β2=0模型: y = β 0 + β 1 ( 含 糖 量 ) + ε y=\beta_{0}+\beta_{1}(含糖量)+\varepsilon y=β0+β1()+ε
  • H a : β 2 ≠ 0 H_{\mathrm{a}} : \beta_{2} \neq 0 Ha:β2̸=0 模型: y = β 0 + β 1 ( 含 糖 量 ) + β 2 ( 纤 维 含 量 ) + ε y=\beta_{0}+\beta_{1}(含糖量)+\beta_2(纤维含量)+\varepsilon y=β0+β1()+β2()+ε
      图中,我们们可以看到 “Fibers(纤维含量)”的 Coedf列的值 b 1 = − 2.8665 b_1=-2.8665 b1=2.8665
      在 “Fibers(纤维含量)”行的 SE Coedf 列可得到含糖量的斜率的标准误差值: s b 2 = 0.2979 s_{b_{2}}=0.2979 sb2=0.2979
      在 “Fibers(纤维含量)”行的 T 列可得到 t-统计值, 即 t-检验的检验统计量, t = b 2 s b 2 = 2.8665 0.2979 = 9.62 t=\frac{b_{2}}{s_{b_2}}=\frac{2.8665}{0.2979}=9.62 t=sb2b2=0.29792.8665=9.62
      在 “Fibers(纤维含量)”行的 P 列可获得 t-统计量的 p-值。同样$ p-值\approx 0.000$。据此,我们再次拒绝零假设。对此的解释为,在存在含糖量的情况下,有证据表明营养等级与纤维含量之间存在线性关系。

8.多元回归F-检验

在这里插入图片描述
营养等级 与 含糖量和纤维含量:

  • H 0 H_0 H0 β 1 = β 2 = 0 \beta_1= \beta_2 = 0 β1=β2=0 模型:$y= \beta_0 + \varepsilon $。
  • H a H_a Ha β 1 \beta_1 β1 β 2 \beta_2 β2 至少有一个不等于0。而 H a H_a Ha的隐含模型未定义,有以下可能:
    y = β 0 + β 1 ( 含糖量 ) + ε y = β 0 + β 2 ( 纤维含量 ) + ε y = β 0 + β 1 ( 含糖量 ) + β 2 ( 纤维含量 ) + ε y=\beta _0+\beta _1\left( \text{含糖量} \right) +\varepsilon \\ y=\beta _0+\beta _2\left( \text{纤维含量} \right) +\varepsilon \\ y=\beta _0+\beta _1\left( \text{含糖量} \right) +\beta _2\left( \text{纤维含量} \right) +\varepsilon y=β0+β1(含糖量)+εy=β0+β2(纤维含量)+εy=β0+β1(含糖量)+β2(纤维含量)+ε
      从图中的“Regression”部分,所对应的MS列看到 MSR 的值为6094.3。
      “Residual Error”部分的MS列可以看到 MSE 的值为37.5。
      而F列那里可以看到 F-检验统计量 F = M S R M S E = 6094.3 37.5 = 162.32 F=\frac{M S R}{M S E}=\frac{6094.3}{37.5}=162.32 F=MSEMSR=37.56094.3=162.32
      此处看到DF列,可以得到F-统计量的自由度:n-m-1=73。
      p-值近似等于零,远小于任何显著性阈值。因此,我们拒绝零假设。对该结论的解释如下。有证据表明营养等级与预测变量集、含糖量和纤维含量之间存在线性关系。
    更确切地说,总体回归模型是显著的。

9.特定系数 β i \beta_i βi的置信区间

  与简单线性回归类似,我们可以为某个特定系数 β i \beta_i βi构建 100 ( 1 − α ) 100(1-\alpha)% 100(1α)置信区间。如下所示,我们能够有 100 ( 1 − α ) 100(1-\alpha)% 100(1α)可信度认为某个特定系数 β i \beta_i βi,位于以下区间内:
β i ± ( t n − m − 1 ) ( s b 1 ) \beta_{i} \pm\left(t_{n-m-1}\right)\left(s_{b_{1}}\right) βi±(tnm1)(sb1)
  其中 t n − m − 1 t_{n-m-1} tnm1自由度为 n − m − 1 n-m-1 nm1 s b i s_{b_i} sbi表示第 i i i 个系数估计的标准误差。
  例如,让我们为含糖量 x 1 x_1 x1的系数 β i \beta_i βi的实际值构建 95 95% 95 置信区间。上例中,点估计合出的值是 β 1 = − 2.2436 \beta_1=-2.2436 β1=2.2436 95 95% 95 置信度及 n − m − 1 = 73 n-m-1=73 nm1=73 自由度的t-关键值为 t n − m − 1 = 1.99 t_{n-m-1}=1.99 tnm1=1.99 。系数古计的标准误差为 s b i = 0.1632 s_{b_i}=0.1632 sbi=0.1632。因此,可得置信区间为:
β 1 ± ( t n − m − 1 ) ( s h ) = − 2.2436 ± 1.99 ( 0.1632 ) = ( − 2.57 , − 1.92 ) \begin{aligned} \beta_{1} & \pm\left(t_{n-m-1}\right)\left(s_{h}\right) \\ &=-2.2436 \pm 1.99(0.1632) \\ &=(-2.57,-1.92) \end{aligned} β1±(tnm1)(sh)=2.2436±1.99(0.1632)=(2.57,1.92)
  我们有95%的置信度认为系数B1的值处于-2.57~-1.92之间。换句话说,当纤维含量保持不变时,含糖量每增加1克,营养等级将会减低1.92至2.57点。例如,假设某个营养研究师声称在纤维含量为常量的情况下,含糖量每增加1克,营养等级将会下降2点。因为-2.0处于95%置信区间内,因此我们可以认为其说法是正确的可能性为95%。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值