异常值的几种情况
数据分析中,异常值是比较难于界定的,一般数据异常值会有几种情况:
- 单值异常
如下图所示,某市场产品客群的样本分布中,年龄为0-5岁与150-200岁即可判定为异常,一般单值异常需结合实际的业务进行判断。
-
相关性异常
一般收入随年龄的增长呈现类线性趋势,如果出现下图情况,即低龄高收入者(如思聪)、高龄低收入者(如流浪老人),虽也可能属于正常情况,但还是要将其排除在建模样本外。如下为实现该散点图的SAS代码:
异常值的几种情况
数据分析中,异常值是比较难于界定的,一般数据异常值会有几种情况:
如下图所示,某市场产品客群的样本分布中,年龄为0-5岁与150-200岁即可判定为异常,一般单值异常需结合实际的业务进行判断。
相关性异常
一般收入随年龄的增长呈现类线性趋势,如果出现下图情况,即低龄高收入者(如思聪)、高龄低收入者(如流浪老人),虽也可能属于正常情况,但还是要将其排除在建模样本外。如下为实现该散点图的SAS代码: