ISLR(3.3)-信用卡数据中的潜在问题
回归模型中六个潜在的问题:
- 共线性(Collinearity)
- 误差项自相关(Correlation of Error terms)
- 误差项方差非恒定(Non-constant variance)
- 离群点(Outliers)
- 高杠杆点(High-leverage Points)
- 非线性(Nonlinearity Relationship)
问题1:额度与信用评分的高度共线性
共线性是指两个或更多的预测变量高度相关,导致难以分离出单个变量对响应变量的影响
- 信用额度
limit
和信用评分rating
往往同时增加和减少,很难确定单一变量与信用卡债务balance
的相关性
共线性的问题
具有高度共线性两个变量的RSS contour plot(等高线)中,等高线之间非常狭窄
- 因此数据的微小变化导致RSS最小的系数估计(最小二乘估计)有很大的不确定性
由于共线性降低了回归系数的准确性,这导致
- 因为每个预测值(x)的
是由除以其标准误差得到的, 所以共线性降低了值
- 因此我们可能无法拒绝
- The 「power」 ofthe hypothesis test, which is the 「probability」 of correctly detecting a 「non-zero」 coefficient is 「reduced」 by collinearity
- 由于共线性的存在,
limit
变量的重要性被掩盖了
正所谓:「一山难容二虎,一个模型难容两个共线变量」
共线性的检测
「Correlation Matrix」
预测变量的相关系数矩阵中出现「绝对值最大的元素」表示有「一对」变量高度相关,
- 因此数据中可能存在共线性问题
- 但相关系数矩阵无法检测到 「三个或更多」变量之间是否存在「多重共线性」:
「Variance Inflation Factor」
计算方差膨胀因子(VIF)评估多重共线性:
其中
- VIF is the ratio of the variance of
when fitting the full model divided by the variance ofif fit on its own
- 当
, VIF=1, 表示完全不存在共线性
- 当
=> 1, 经验法则:VIF超过5或者10就表示有共线性问题
- The predictors {age, rating, limit} have VIF values of {1.01, 160.67, 160.59}
- 信用卡数据集中存在相当大的共线性!
共线性的解决方案
「从回归中剔除一个问题变量」
当我们作balance
对age
和limit
不包含rating
的回归:
- 在不需对拟合作出妥协的前提下, 手动剔除一个多余的变量解决共线性问题
-
-
「融合两个共线变量」
把共线变量组合成一个单一的预测变量:
- 对标准化后的
limit
和rating
求平均创建新变量credit worthiness
问题2:误差项自相关
线性回归中的一个重要假设是误差项
-
完全不能判断的正负
- 回归系数和拟合值的标准误的计算基于不相关假设
「误差项自相关导致的问题」:
估计标准误差往往会低估了真实的标准误差
- 95%CI包含真实参数的实际概率远远低于0.95
- p-value降低导致错误的结论,认为参数是统计显著的
- 模型的置信度无法保证
假如重复了样本量为n的样本 ==> 2n
- 对2n个样本对参数估计和对n个样本对估计相同,但后者CI对宽度是前者的
倍
「时间序列中的误差相关性」
如果相邻的时间点产生的误差有正相关关系,
- 在残差图中有跟踪现象(tracking),否则就是上下波动
假设【误差项不相关】对线性回归和其他统计方法都很重要
- 良好的实验设计(控制变量、环境)可以降低误差项自相关带来的风险
问题3:误差项方差非恒定
线性回归模型的另一个重要假设是误差项的方差是恒定的
-
- 线性模型中的假设检验和标准误差、置信区间的计算都依赖于这一假设
- 然而真实情况下,误差项的方差是「非恒定的」
- 可能随着响应值的增加而增加
「凹函数(concave function)变换」
残差图呈漏斗形(funnel shape
),说明误差项方差「非恒定」或存在「异方差性」
- 当残差随拟合值增加而增加,用「凹函数」对响应值
做变换, 比如和
- 这种变换使较大的响应值有「更大的收缩(shrinkage)」==> 降低异方差性
「加权最小二乘(weighted least squares)」 当每个原始
- e.g. the
response could be an average ofraw observations
- 全部
均值方差为
- simple remedy: 用加权最小二乘法拟合模型,即权重与方差的倒数成正比:
- i.e.
- i.e.
问题4:异常值(Outlier)
预测变量的异常值通常对最小二乘拟合几乎没有影响, 但是对RSE和
-
:0.892 ==> 0.805
- RSE: 0.77 ==> 1.09 when the outlier is removed ==> included in the regression
- Since RSE is used to compute all CIs and p-values,
- such a dramatic increase caused by a single data point can have implications for the interpretation of the fit
「学生化残差 - studentized residual」
实践中很难确定残差多大可以确定是异常点
- 学生化残差:每一个由残差
除以它的估计标准误差得到
- 学生化残差绝对值大于3的
可能是异常值
异常值如果显而易见是数据采集或者记录中的错误导致,就删掉
- 如果一个异常值可能不是由失误导致的,这意味着模型存在缺陷(e.g. 缺少关键预测变量)
问题5:高杠杆点(high-leverage point)
与异常值(
高杠杆点对回归直线的估计有很大影响,这可能会导致整个拟合的失效
- 在简单线性回归中,找到高杠杆点容易(画图)
- 在多元线性回归中,为了量化观测点的杠杆,可以计算「杠杆统计量:leverage statistic」
The Leverage Statistic increases with the distance of
-
is always between 1/n and 1, and the average leverage for all obserations is always equal to (p+1)/n,超过的对应点可能有较高的杠杆作用
问题6:非线性关系
在【统计笔记06】中已经总结通过多项式直接扩展线性模型之外,残差图也可以识别非线性关系
如果残差图表明数据中存在非线性关系,可以在模型中使用预测变量的「非线性变换」
- such as
7. 参考:
- Introduction to Statistical Learning (ISL)
- 《老董聊卡》