来源:Taotao Tu原创。
前面的帖子,我们介绍了异常值识别与处理的全流程方法。
但是,在有一个细节上,还需要格外注意,即如何精确识别出异常值的范围?
我们来看一个具体的例子
1.导入数据
webuse hsng
2.异常点的初步识别
让我们来初步看看,哪些变量可能存在异常点的问题。
首先,我们来看看变量的基本属性
describe
从上图可以看出,除了state是string变量,其他的均为数值型变量。
接下来,让我们初步识别一下 如何甄别 存在异常值的变量
graph box division region pop popgrow popden pcturban faminc hsng hsnggrow hsngval rent