数据治理——如何处理“脏数据”

最新推荐文章于 2024-07-04 01:42:30 发布

Mr_John_Liang

最新推荐文章于 2024-07-04 01:42:30 发布

阅读量1.1w

点赞数 9

分类专栏：数据处理数据——创造新的价值的源泉文章标签：数据治理大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liangzhao_jay/article/details/85162817

版权

随着企业越来越懂得如何使用大数据，大数据不再只是任何人都能进入的沙箱，它是真正的工作负荷，需要围绕它进行治理控制。

一、“脏数据”分类以及处理方法

数据缺失：缺一些记录，或者一条记录里缺一些值（空值），或者两者都缺。原因可能有很多种，系统导致的或人为导致的可能性都存在。如果有空值，为了不影响分析的准确性，要么不将空值纳入分析范围，要么进行补值。前者会减少分析的样本量，后者需要根据分析的计算逻辑，选择用平均数、零、或者等比例随机数等来填补。如果是缺一些记录，若业务系统中还有这些记录，则通过系统再次导入，若业务系统也没有这些记录了，只能手工补录或者放弃。

数据重复：相同的记录出现多条，这种情况相对好处理，去掉重复记录即可。但是怕就怕不完全重复，比如两条会员记录，其余值都一样，就是住址不一样，这就麻烦了，有时间属性的还能判断以新值为准，没有时间属性的就无从下手了，只能人工判断处理。

数据错误：数据没有严格按照规范记录。比如异常值，价格区间明明是100以内，偏偏有价格=200的记录；比如格式错误，日期格式录成了字符串；比如数据不统一，有的记录叫北京，有的叫BJ，有的叫beijing。对于异常值，可以通过区间限定来发现并排除；对于格式错误，需要从系统级别找原因；对于数据

最低0.47元/天解锁文章

关注

9
点赞
踩
47

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。