- 概念
高杠杆值观测点 ,即与其他预测变量有关的离群点,换句话说,他们是由许多异常的预测变量值组合起来的,与相应变量值没有关系
- 如何判断是否为高杆杠值点
通过帽子 统计量(hat statistic)判断,对于一个给定的数据集,帽子均值为p/n,其中 p是模型估计的参数数目(包含截距项),n是样本量,一般来说,若观测点的帽子值大于帽子均值的2或3倍,就可以定位的搞杠杆值,下面画出了帽子值的分布
hat.plot <- function(fit){
p <- length(coefficients(fit)) #系数个数,包括截距项
n <- length(fitted(fit)) #样本量
plot(hatvalues(fit),main = "Index Plot Of Hat Values")
abline(h=c(2,3)*p/n,col="red",lty=2)
identify(1:n,hatvalues(fit),names(hatvalues(fit)))
}
hat.plot(fit)
水平线标注的即帽子均值2倍和3倍的位置,定位函数(location function)能以交互模型绘图,单击感兴趣的点,然后进行标注,停止交互时,用户可按Esc键退出,或从图形下拉菜单中选Stop,或直接右击图形
高杆杠值点可能会是强影响点,也可能不是,要看它们是否为离群点