进行数据清洗_在进行大数据分析之前都需要进行数据清洗,如何进行数据清洗?...

没有合格的食材,再好的厨师也做不出绝世佳肴;没有合格的钢材,再好的建筑师也造不出摩天大楼;没有合格的数据,再好的数学家也挖掘不出其中的价值。

069624d473150fa83f52b8ad3dcef535.png

数据为什么要清洗呢?顾名思义,就是因为数据仓库中的数据在生产、运输、存储过程中“脏”了,或者方便使用,需要进行规整规整,所以需要清洗。数据的“脏”在于数据有重复、数据有缺失、数据有不一致,数据清洗的目的就是为了删除重复数据、补齐缺失的数据、消除数据的不一致,保证数据质量,支撑数据挖掘。

2d10da2c1a45fe3d1edb4edc9eaa6428.png

【数据清洗原理】

数据清洗从整体上看,是一个人工预处理与机器自动处理相结合的过程,其基本原理是在完成人工预处理之后,利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。

3abd41dff4abd940e204b7934db54f48.png

【数据清洗步骤】

1)重复数据清洗

对于重复冗余数据需要采用规则加以去除,如通过相同的关键信息匹配进行去重,也可以通过主键进行去重。

2)缺失数据清洗

对于一些应该有的信息发生缺失,一般有两种情况:一种是设备采集的数据发生缺失,第二种是人工录入数据发生缺失、另外一种是Excel导入数据发生缺失。对于第一种缺失需要对设备进行改进或采集软件进行优化,第二种可以通过在录入数据页面进行必填项控制,并对数据有效性进行验证,而对于第三种则需要人工进行补录。

3)错误数据清洗

对于格式错误数据,可以通过格式转化规则自动进行处理;对于内容错误数据可以通过页面规则设定方式进行限制,减少内容错误;对于逻辑错误数据,则需要编写与业务相关的判读规则来实现数据的确认或剔除。

4)关联性验证

如果你的数据有多个来源,那么有必要进行关联性验证。例如针对同一型号、不同业务系统保存的数据本身具有一定的关联性,需要进行关联性验证后才能确定是否需要去重或合并。

7bba354ebcc19089b4674b751b479351.png

【数据挖掘清洗】

为了满足数据挖掘的需要,数据还需要进行以下类别的清洗:

1) 降维:主成分分析或随机森林

2) 升维:汇总、离散化、聚类等

3) 字段冗余:剔除冗余字段

4) 归一化:最小-最大法、零-均值法等

15eaf415264dc194be98a8f3a3b80c58.png

总结

当然数据清洗是一个反复的过程,不可能一蹴而就,只有不断地发现问题并解决问题,持续优化才能达到效果。比如发现清洗规则过于严格,可能导致有用数据被剔除,则需要对规则进行修改。有的可能只需要软件人员修改算法、加强界面约束就能提高数据质量,而有的清洗功能需要业务人员或客户进行确认,而有的必须经过人工补录才能够保证数据质量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值