异常值是指样本中的个别值,其数值明显偏离它所属样本的其余观测值这些数据是不可理的或者错误的。
出现异常值的原因:
1,数据输入错误:人为错误可能会导致数据异常。
2,测量误差:测量误差是由于测量仪器发生故障导致的,该类异常值最常见。
3,故意异常值:该类异常通常出现在涉及敏感数据的自我报告的度量中。
4,数据处理错误:进行数据挖掘时,我们会从多个数据源中抽取数据,由于某些擦破做或抽取错误,可能会导致数据集中出现一异常值。
5,采样错误:在采样的过程中出现了错误。
6,自然异常值:如果异常值不是人为造成的,就有可能是自然异常值。
异常值的检验
1,简单统计方法
对属性值进行一个描述性的统计,从而查看哪些值是不合理的
2,3&原则
3&原则又称为拉依达原则,它是假设一组检测数据只存在随机误差,对其进行计算处理得到的标准偏差,按一定概率确定一个区间,凡是超过这个区间的误差,都是粗大误差,相应的数据应予以剔除。
3,箱型图
一种用于显示一组数据分散状况的统计图。
4,基于邻近的模型
基于邻近的模型是评估值与其他值孤立情况的模型,该模型主要分为三类,即聚类分析,基于密度的分析以及最邻近分析。
以一份txt文件temperature。txt为例进行删除包含异常值的记录处理。
一,创建转换
二,文本文件输入控件的配置
三,过滤记录
可以从原数据看出异常值为temperature=137,故条件可如此设计。
四,结果预览
可以发现time=6:30的数据已经删去