大数据中数据清理怎么做的_大数据清洗的方法 数据清洗的基本流程 | 星云联动...

12月

23

2019

大数据清洗的方法及流程

数据清洗简单概述就是对企业在运行经营过程中,产生的纷繁复杂的数据进行抽取、转换、加载三个部分。具体细化流程则分为分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理几部分,以下我们将数据清洗分为两部分进行介绍,既数据清洗的方法、数据清洗基本流程。

数据清洗方法

1、缺失值处理

在数据清洗中对缺失值的处理有删除、均值填补、热卡填补、回归填补、多重填补、K-最近邻法、有序最近邻法、贝叶斯等,以下介绍三种使用频率较高的缺失值补全方法:

删除:缺失部分在整体数据样本中占比较低时,直接删除即可;

均值填补:依据数据值属性相关度,对影响最大的那一组数据拆分成几个部分,计算出每部分的均值,加入到缺失数据中即可;

热卡填补法:若缺失值包含变量,那么在数据库中寻找与它相似度最高的一组数据进行填补;

2、异常值处理

在数据清洗中对异常值的处理有3∂原则、箱型图分析、模型检测、距离、密度、聚类、统计分析等,以下照例介绍三种使用频率较高的异常值处理方法:

统计分析:拿到数据之后,对其进行简单的描述性统计。通过选取最大最小阈值来判断是否符合常识;

模型检测:根据正常状态,建立数据模型。将数据表现与模型不拟合的数据定义为异常值;

3∂原则:如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值