原标题:线性回归有离群值也不怕?稳健回归
重要通知:寒假期间 (2019年1月20日至2月23日) 将暂停推送原创文章,咨询服务照常。
前言
近日有朋友在《统计咨询》公众号咨询:数据中有离群值,做线性回归对结果影响大吗?答案是肯定的。我们可以通过Cook’s距离来识别明显的离群值,剔除后再进行线性回归。但如果在离群值不明显、数量较多、研究者无充分理由认为可能的离群值有错误的情况下,直接剔除离群值可能不太合适。那么,还有其他办法可以处理离群值的问题吗?
稳健回归 (robust regression) ,通过对数据中各样本赋予不同的权重来考虑离群值对回归方程的影响,可以作为最小二乘法 (传统线性回归) 的替代。当然,通过稳健回归结果中不同样本的权重,我们可以识别离群值,或者是找出重要的样本点。
离群值的影响
下面我们用R语言模拟两个样本量为100的具有线性相关关系的变量x和y,然后在此基础上增加3个离群值,以期观察离群值对回归方程的影响。
#设定随机种子
set.seed(2019)
#生成自变量x与因变量y
x=rnorm(100)
y=x+1+rnorm(n=100,mean = 0, sd = 0.5)
#增加3个离群值
x=c(x,-3+rnorm(3,sd = 0.3))
y=c(y,rep(2,3))
#作散点图,并标注离群点
plot(x,y)
points(x[101:103],y[101:103],col=2,pch=