先说残差图究竟是什么鬼。
Residual Illustration
残差图是指以残差为纵坐标,以任何其他指定的量为横坐标的散点图。(上图仅是残差的示意图,非残差图,残差图可见下文)
用普通最小二乘法(OLS)做回归分析的人都知道,回归分析后的结果一定要用残差图(residual plots)来检查,以验证你的模型。你有没有想过这究竟是为什么?残差图又究竟是怎么看的呢?
这背后当然有数学上的原因,但是这里将着重于聊聊概念上的理解。从根本上说,随机性(randomness)和不可预测性(unpredictability)是任何回归模型的关键组成部分,如果你没有考虑到这两点,那么你的模型就不可信了,甚至说是无效的。
为什么这么说呢?首先,对于一个有效的回归模型来说,可以细分定义出两个基本组成部分:
Response =(Constant + Predictors)+ Error
我想说的是另一种说法,那就是:
响应(Response) = 确定性(Deterministic) + 随机性(Stochastic)
(有时候真是不得不吐槽下,毕竟是外国人发明的现代科学,中文翻译过来难眠有混淆视听之嫌,学术词汇的理解还是看英文更能清晰本质,一会就会聊到Stochastic就明白为什么这么说)
确定性部分(The Deterministic Portion)
为了完整,先提一下Deterministic这部分。在预测模型中