一个全面的回归分析要覆盖对异常值的分析,包括离群点、高杠杆值点和强影响点。这些数 据点需要更深入的研究,因为它们在一定程度上与其他观测点不同,可能对结果产生较大的负面 影响。下面我们依次学习这些异常值。
8.4.1 离群点
离群点是指那些模型预测效果不佳的观测点。它们通常有很大的、或正或负的残差(Yi–Ŷi)。 正的残差说明模型低估了响应值,负的残差则说明高估了响应值。
你已经学习过一种鉴别离群点的方法:图8-9的Q-Q图,落在置信区间带外的点即可被认为是 离群点。另外一个粗糙的判断准则:标准化残差值大于2或者小于–2的点可能是离群点,需要特 别关注。
car包也提供了一种离群点的统计检验方法。outlierTest()函数可以求得最大标准化残差 绝对值Bonferroni调整后的p值
> library(car)
> outlierTest(fit)
rstudent unadjusted p-value Bonferonni p
Nevada 3.5 0.00095 0.048
此处,你可以看到Nevada被判定为离群点(p=0.048)。注意,该函数只是根据单个最大(或 正或负)残差值的显著性来判断是否有离群点。若不显著,则说明数据集中没有离群点;若显著, 则你必须删除该离群点