12月
23
2019
大数据清洗的方法及流程
数据清洗简单概述就是对企业在运行经营过程中,产生的纷繁复杂的数据进行抽取、转换、加载三个部分。具体细化流程则分为分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理几部分,以下我们将数据清洗分为两部分进行介绍,既数据清洗的方法、数据清洗基本流程。
数据清洗方法
1、缺失值处理
在数据清洗中对缺失值的处理有删除、均值填补、热卡填补、回归填补、多重填补、K-最近邻法、有序最近邻法、贝叶斯等,以下介绍三种使用频率较高的缺失值补全方法:
删除:缺失部分在整体数据样本中占比较低时,直接删除即可;
均值填补:依据数据值属性相关度,对影响最大的那一组数据拆分成几个部分,计算出每部分的均值,加入到缺失数据中即可;
热卡填补法:若缺失值包含变量,那么在数据库中寻找与它相似度最高的一组数据进行填补;
2、异常值处理
在数据清洗中对异常值的处理有3∂原则、箱型图分析、模型检测、距离、密度、聚类、统计分析等,以下照例介绍三种使用频率较高的异常值处理方法:
统计分析:拿到数据之后,对其进行简单的描述性统计。通过选取最大最小阈值来判断是否符合常识;
模型检测:根据正常状态,建立数据模型。将数据表现与模型不拟合的数据定义为异常值;
3∂原则:如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <