16回归方程的验证

16回归方程的验证

标签:机器学习与数据挖掘
(代码位置:《R语言手册 第八站 简单线性回归》。)

1.回顾回归方程的意义

  首先,我们指明回归方程的通式:
y = β 0 + β 1 x + ε y=\beta_{0}+\beta_{1} x+\varepsilon y=β0+β1x+ε
β 0 \beta_0 β0 β 1 \beta_1 β1表示模型参数,分别对应截距和斜率。这些值是常量,其真实值未知,需要通过最小二乘估计从数据集中估计得到。
ε \varepsilon ε 表示误差项。由于大多数预测-响应变量之间的关系是不确定的,因此对实际关系的所有线性近似都需要增加误差项。所以需要引入由随机变量建模的误差项。

2.有关误差项的假设

零均值假设。 误差项 ε \varepsilon ε是一个随机变量,其 均值 或者说 它的 期望值 等于0,符号表示为: E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0
常数方差假设 ε \varepsilon ε的长差,用 σ 2 \sigma^{2} σ2表示,无论 x x x 取何值,都是一个常数。
独立性假设。 假设 ε \varepsilon ε的值是独立的。
正态假设。 假设误差性 ε \varepsilon ε满足正态分布。

若把这四个条件汇总,就是:误差项 ε \varepsilon ε的值是均值为0,方差为 σ 2 \sigma^{2} σ2的独立正态分布随机变量。

3.响应变量行为的隐含假设

  基于上述4点假设,我们可以得到响应变量y行为的如下4个隐含意义。
①按照零均值假设,我们有:
E ( y ) = E ( β 0 + β 1 x + ε ) = E ( β 0 ) + E ( β 1 x ) + E ( ε ) = β 0 + β 1 x E(y)=E\left(\beta_{0}+\beta_{1} x+\varepsilon\right)=E\left(\beta_{0}\right)+E\left(\beta_{1} x\right)+E(\varepsilon)=\beta_{0}+\beta_{1} x E(y)=E(β0+β1x+ε)=E(β0)+E(β1x)+E(ε)=β0+β1x
文字解释:对 x x x 的每个值, y y y 的均值在回归线上。
②基于常数方差假设,我们有 y y y 的方差 V a r ( y ) Var(y) Var(y) ,为
Var ⁡ ( y ) = Var ⁡ ( β 0 + β 1 x + ε ) = Var ⁡ ( ε ) = σ 2 \operatorname{Var}(y)=\operatorname{Var}\left(\beta_{0}+\beta_{1} x+\varepsilon\right)=\operatorname{Var}(\varepsilon)=\sigma^{2} Var(y)=Var(β0+β1x+ε)=Var(ε)=σ2
③基于独立性假设,对 x x x 的 任意特定值, y y y 的取值也是独立的。
④基于正态分布假设,可知 y y y 亦是一种正态分布随机变量。

**总结一下上面的话:相应变量 y i y_i yi 的值是均值为 β 0 + β 1 x \beta_{0}+\beta_{1} x β0+β1x、方差为 σ 2 \sigma^2 σ2的正态分布随机变量。

  如果只是在应用回归分析时采用严格的描述性方法,不需要推理和建模,则不需要非常担忧假设验证。因为假设是关于误差项的。如果不涉及误差项,则不需要假设。然而,如果希望推理或构建模型,则必须要验证假设。

4.残差的正态概率图

  正态概率图是一种特定分布分位数与标准正态分布分位数之间比较的分数位-分数位图,目的是确定特定分布与正态分布的偏差程度(类似于百分位,特定分布的分位数值为 x x x,其分布值的 p p% p 小于或等于 x p x_p xp )。在正态分布图中,待考察分布的观察值与正态分布相同数量的值比较。如果待考察的分布是正态分布,则图中大部分的点构成一条直线;如果与线性形态存在系统偏差,则该图表明待考察分布不是正态分布。
  比如:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
  每个分布都在这种正态概率图上有自己的特征,而只有正态分布才会刚好成一条直线。
  顺带一提,这是用Mintab做的图,图右上方有一些参数,其中,AD值代表 安德逊-道尔(Anderson_darling, AD)统计 ,这是正态分布的AD测试。AD值越小,表明数据与正态分布拟合程度高。零假设表明与正态分布拟合,因此p-值小,表明拟合程度不高。
  所以,除了看图的样子,更重要的是看右上角的参数来判断。

5.标准残差与拟合度的点图

在这里插入图片描述
  这种图的好处不明而喻,直接展现了标准残差值与拟合值的区别。同时,我们也可以看一下这是什么类型的模式。

在这里插入图片描述
①(a)图是最为 “健康” 的点图了,没有明显的模式,分部的也比较均匀。
②(b)图它违背了独立性假设,它的点图表现出一种曲线模式.我们甚至可以稍稍预测一下接下来的误差走向。而如果残差真的存在独立性,我们应该无法进行这样的预测才对
③(c)图违背了方差为常数的假设,可以看出,其参差的变异性在随着 x x x 的值变化,x取值越小,残差越小,x取值越大,残差取值越大。因此,其变异性非常量,违背了方差为常数的假设。
④(d)图当然也很明显,单独值得一提的是违背了零均值假设
  在检验点图的模式时,要注意防止随机考察模式存在的“罗夏效应(Rorschacheffect)”。考察点图的零假设是这些假设都完整无缺,只有在点图中能够系统清楚给出的可识别的模式才能作为比较的证据。

6.总结

  除了上述提到的图形化方法外,还有几种可用于评估回归假设有效性的诊断假设测试。如上所述,AD测试可用于判断残差与正态分布的符合程度。为评价是否存在违反常数方差的假设,可采用Bartlett’s test或Levene’s test。评价是否违背了独立性假设,可采用Durban-Watson test或其他可运行的测试。(Bartlett’s test在本博客《08 因子分析(进阶版)》有叙述到。)

7.获得线性变换

  比如,有些变量的关系就不是线性关系,如果用线性回归的话,就会出问题。比如以下的情况:
在这里插入图片描述
  可以进行对数表换之后,才好进行熟悉的线性回归。当然,我们这里介绍的是其中一种方法。那就是Frederick、Mosteller和Tukey在他们出版的Data Analysis and Regression一书中建议采用“凸规则”发现获得线性性状的转换方法。
在这里插入图片描述
  观察”x down, y down“的第三象限,与上个点图有相同的曲线形状。对我们的曲线来说,来自凸规则的启发式规则是“xdown,ydown”。这意味着我们将转换变量x,方法是将x在梯度上的位置降低1个或多个点。对y也采用同样的方法。所有未转换变量的当前位置为1。凸规则建议我们对字母块的频率和点值,要么运用平方根进行转换,要么运用自然对数进行转换,这样就可能会得到两个变量之间存在的线性关系。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值