统计学习导论_统计学习导论|读书笔记07|信用卡数据中的潜在问题

最新推荐文章于 2022-03-24 12:35:13 发布

weixin_39652154

最新推荐文章于 2022-03-24 12:35:13 发布

阅读量816

点赞数

文章标签：统计学习导论

ISLR(3.3)-信用卡数据中的潜在问题

回归模型中六个潜在的问题:

共线性(Collinearity)
误差项自相关(Correlation of Error terms)
误差项方差非恒定(Non-constant variance)
离群点(Outliers)
高杠杆点(High-leverage Points)
非线性(Nonlinearity Relationship)

问题1:额度与信用评分的高度共线性

共线性是指两个或更多的预测变量高度相关，导致难以分离出单个变量对响应变量的影响

信用额度limit和信用评分rating往往同时增加和减少，很难确定单一变量与信用卡债务balance的相关性

共线性的问题

具有高度共线性两个变量的RSS contour plot（等高线）中，等高线之间非常狭窄

因此数据的微小变化导致RSS最小的系数估计（最小二乘估计）有很大的不确定性

由于共线性降低了回归系数的准确性，这导致

的标准误差增加

因为每个预测值(x)的
是由

除以其标准误差得到的, 所以共线性降低了

值
因此我们可能无法拒绝
- The 「power」 ofthe hypothesis test, which is the 「probability」 of correctly detecting a 「non-zero」 coefficient is 「reduced」 by collinearity

由于共线性的存在，limit 变量的重要性被掩盖了

正所谓：「一山难容二虎，一个模型难容两个共线变量」

共线性的检测

「Correlation Matrix」
预测变量的相关系数矩阵中出现「绝对值最大的元素」表示有「一对」变量高度相关,

因此数据中可能存在共线性问题
但相关系数矩阵无法检测到 「三个或更多」变量之间是否存在「多重共线性」：

「Variance Inflation Factor」
计算方差膨胀因子(VIF)评估多重共线性：

其中

是

对所有预测变量回归的

VIF is the ratio of the variance of
when fitting the full model divided by the variance of

if fit on its own
当
, VIF=1, 表示完全不存在共线性
当
=> 1, 经验法则：VIF超过5或者10就表示有共线性问题
The predictors {age, rating, limit} have VIF values of {1.01, 160.67, 160.59}
- 信用卡数据集中存在相当大的共线性！

共线性的解决方案

「从回归中剔除一个问题变量」
当我们作balance对age和limit不包含rating的回归：

在不需对拟合作出妥协的前提下, 手动剔除一个多余的变量解决共线性问题

「融合两个共线变量」
把共线变量组合成一个单一的预测变量：

对标准化后的limit和rating求平均创建新变量credit worthiness

问题2:误差项自相关

线性回归中的一个重要假设是误差项

「不相关」:

完全不能判断

的正负
回归系数和拟合值的标准误的计算基于不相关假设

「误差项自相关导致的问题」：
估计标准误差往往会低估了真实的标准误差

95%CI包含真实参数的实际概率远远低于0.95
p-value降低导致错误的结论，认为参数是统计显著的
模型的置信度无法保证

假如重复了样本量为n的样本 ==> 2n

对2n个样本对参数估计和对n个样本对估计相同，但后者CI对宽度是前者的
倍

「时间序列中的误差相关性」
如果相邻的时间点产生的误差有正相关关系,

在残差图中有跟踪现象（tracking）,否则就是上下波动

假设【误差项不相关】对线性回归和其他统计方法都很重要

良好的实验设计(控制变量、环境)可以降低误差项自相关带来的风险

问题3:误差项方差非恒定

线性回归模型的另一个重要假设是误差项的方差是恒定的

线性模型中的假设检验和标准误差、置信区间的计算都依赖于这一假设
然而真实情况下，误差项的方差是「非恒定的」
- 可能随着响应值的增加而增加

「凹函数(concave function)变换」

残差图呈漏斗形(funnel shape)，说明误差项方差「非恒定」或存在「异方差性」

当残差随拟合值增加而增加，用「凹函数」对响应值
做变换, 比如

和
这种变换使较大的响应值有「更大的收缩(shrinkage)」==> 降低异方差性

「加权最小二乘(weighted least squares)」 当每个原始

与方差

无关：

e.g. the
response could be an average of

raw observations
全部
均值方差为
simple remedy: 用加权最小二乘法拟合模型，即权重与方差的倒数成正比：
- i.e.

问题4：异常值(Outlier)

预测变量的异常值通常对最小二乘拟合几乎没有影响, 但是对RSE和

有影响：

：0.892 ==> 0.805
RSE： 0.77 ==> 1.09 when the outlier is removed ==> included in the regression
Since RSE is used to compute all CIs and p-values,
- such a dramatic increase caused by a single data point can have implications for the interpretation of the fit

「学生化残差 - studentized residual」
实践中很难确定残差多大可以确定是异常点

学生化残差：每一个由残差
除以它的估计标准误差得到
学生化残差绝对值大于3的
可能是异常值

异常值如果显而易见是数据采集或者记录中的错误导致，就删掉

如果一个异常值可能不是由失误导致的，这意味着模型存在缺陷（e.g. 缺少关键预测变量）

问题5：高杠杆点(high-leverage point)

与异常值（

远离模型预测值的点)对比，高杠杆点是

远离其他

的异常点

高杠杆点对回归直线的估计有很大影响，这可能会导致整个拟合的失效

在简单线性回归中，找到高杠杆点容易(画图)
在多元线性回归中，为了量化观测点的杠杆，可以计算「杠杆统计量:leverage statistic」

The Leverage Statistic increases with the distance of

from

is always between 1/n and 1, and the average leverage for all obserations is always equal to (p+1)/n，超过的对应点可能有较高的杠杆作用

问题6：非线性关系

在【统计笔记06】中已经总结通过多项式直接扩展线性模型之外，残差图也可以识别非线性关系

如果残差图表明数据中存在非线性关系，可以在模型中使用预测变量的「非线性变换」

such as

7. 参考：

Introduction to Statistical Learning (ISL)
《老董聊卡》

TOGO: （5.1）重抽样方法&交叉验证

weixin_39652154

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫