数据清洗的规则

在建立分析用数据平台之前,需要对数据进行清洗,以提升数据质量和数据处理效率。
数据清洗规则包括:非空检核、非法代码清洗、非法值清洗、主键重复、数据格式检核、记录数检核。
1)非空检核:当字段要求为非空的时候,要对该字段数据进行检核。
2)非法代码、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值问题包括取值错误、格式错误、多余字符、乱码等,需根据具体情况进行校核及修正。

3)主键重复:多个业务系统中同类数据经过清洗后,在进入数据仓库时候需要统一保存到同一个表里时,为保证主键唯一性,需进行检核工作。
4)数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多余字符、乱码。
5)记录数检核:指各个系统相关数据之间的数据总数检核。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

流着口水看上帝

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值