linear regression(二)

关于线性回归的知识还是很多,本文知识连接上文,总结下常见问题。

回归模型中的其他注意事项:

1.定性预测变量
之前假设的线性回归模型中的所有变量都是定量的(quantitative),往往有些预测变量是定性的(qualitative)

  • 二值预测变量:
    如果一个定性变量(或称因子),只有两个水平或可能的取值,我们可以创建一个指示变量(indicator)或称哑变量(dummy variable)。

  • 定性预测变量有两个以上的水平:
    例如:一个定性预测变量有n个水平,可以创建n-1个虚拟变量(哑变量),没有相对应的哑变量的水平被称为基准水平。

基于回归系数检验的t检验,易受虚拟变量编码方式的影响,而F检验的结果与编码方式无关。

当定性和定量的预测变量同时存在时,哑变量的方法的应用也毫无困难。

2.线性模型的扩展

标准线性回归模型作了一些高度限制性的假设,最重要的假设是:预测变量和响应变量的关系是可加和线性的。、
可加性假设是指预测变量 Xj 的变化对响应变量Y产生的影响与其他预测变量的取值无关;
线性假设是指无论 Xj 取何值, Xj 变化一个单位引起的响应变量Y的变化是恒定的。

  • 去除可加性假设:当预测变量之间出现交互作用或协同效应时,需要在线性模型中加入交互项。
    注:在显著性检验中,单纯的预测变量的效应称为主效应。
    在选择变量时,根据实验分层原则,如果模型中含有交互项,那么即使主效应的系数p值不显著,也应包含在模型中。

  • 非线性关系
    某些情况下,响应变量和预测变量的真实关系可能是非线性的,那么为扩展线性模型,我们提出了多项式回归

回归诊断

  1. 数据的非线性
    可用残差图识别非线性
    给定一个简单线性回归模型,我们可以绘制残差 ei=yiyi^ 和预测变量 xi 的散点图;
    在多元回归中,绘制残差与预测值(或拟合值) yi^ 的散点图。

    理想情况下,残差图显示不出明显的规律,如存在明显的规律,则表明线性模型的某些方面可能有问题。

  2. 误差项自相关
    如果误差项之间有相关性,那么根据以前的假设,所得的标准误会偏小,置信区间和预测区间比真实区间窄。模型的置信度也无法保证。

    误差项自相关往往出现在时间序列数据中,即在离散时间点测量得到的观测构成的数据中。如果误差项是正相关的,那么可能在残差中看到追踪现象——相邻的残差可能有类似的值。

  3. 误差项方差非恒定
    线性模型假设误差项的方差是恒定的,即同方差 Var(ϵi)=σ2
    如果误差项的方差随着响应值的增加而增加,如果残差图出现漏斗形,说明误差项方差非恒定或存在异方差性。这时可以对响应值作变换;
    如果可以估计每个响应值的方差,这种情况下,可以用加权最小二乘法拟合模型,即权重与方差的倒数成比例。
  4. 离群点(outlier)
    离群点是指 yi 远离模型预测的点。

    产生离群点的原因很多,如数据收集过程中对某个观测点的错误记录。

    残差图也可以识别离群点,通常可以绘制学生化残差图,学生化残差由残差 ei 除以它的估计标准误得到,学生化残差绝对值大于3的观测点可能是离群点。

    处理:如果能够确信某个离群点是由数据采集或记录中的错误导致的,那么一个解决方案是直接删除此观测点。但若不是由失误导致的,可能暗示模型存在缺陷,比如缺少预测变量。

  5. 高杠杆点
    高杠杆表示观测点 xi 是异常的。去除高杠杆点比去除离群点对最小二乘线的影响更大。
    识别:
    在简单线性回归中,可以通过找到预测变量的取值超出正常范围的观测点。但在多元线性回归中,单独来看,各个预测变量的取值都在正常范围内,但从整个预测变量集的角度来看,却是不寻常的,这时可以绘制观测数据的二维图,若在观测范围之外,则可能为高杠杆点。

    量化观测杠杆作用:
    无法同时绘制数据的所有维度,可以计算杠杆统计量(leverage statistic),一个大的杠杆统计量对应一个高杠杆点。

  6. 共线性(collinearity)
    是指两个或更多的预测变量高度相关。
    共线性导致RSS最小的系数估计——即最小二乘估计——有很大的不确定性,降低了回归系数估计的准确性,会导致系数估计的标准误变大。t统计量也会下降,假设检验的效力也会减小。
    识别:检测共线性的一个简单的方法可以看预测变量的相关系数矩阵。
    但并非所有的共线性问题都可以检测出来。三个或者更多变量之间存在共线性,这种情况称为多重共线性
    一种更好的评估多重共线性的方式是计算方差膨胀因子(VIF),VIF的最小可能值是1,表示完全不存在共线性。根据经验法则,VIF值超过5或10就表示有共线性问题。以下公式可以计算每个变量的VIF:
    这里写图片描述

其中, R2Xj|Xj Xj 对所有预测变量回归的 R2 ,如果 R2Xj|Xj 接近1,那么存在共线性,且VIF会很大。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值