极端观测值
检查极端值
陈强老师的方法——计算影响力(即每个样本在回归中贡献的比例)
reg y x1 x2 x3
predict lev,leverage
gsort - lev
sum lev
list lev in 1/n1
sum可以看出lev的平均值、最大值等等,进而判断是否存在异常值
list可以列出 前n1个数据进而人为筛选是否存在异常值
当然,也可以采用直方图、核密度图等方式直观看出数据分布状态,并判断。
处理
首先应当合理接受极端值的出现,判断其是否是由什么现象产生的,以及为什么会产生,再进一步判断是否能够直接剔除,是否需要同时汇报去除和未去除两种样本的结果。
处理方法,可以看连玉君老师的这篇,介绍得很详细。
Stata:离群值!离群值?离群值!| 连享会主页【 连享会主页 】https://www.lianxh.cn/news/6fd920ed55bf0.html
残缺值
Stata:缺失值的填充和补漏| 连享会主页【 连享会主页 】https://www.lianxh.cn/news/4404052e7b336.html