在建立分析用数据平台之前,需要对数据进行清洗,以提升数据质量和数据处理效率。
数据清洗规则包括:非空检核、非法代码清洗、非法值清洗、主键重复、数据格式检核、记录数检核。
1)非空检核:当字段要求为非空的时候,要对该字段数据进行检核。
2)非法代码、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值问题包括取值错误、格式错误、多余字符、乱码等,需根据具体情况进行校核及修正。
3)主键重复:多个业务系统中同类数据经过清洗后,在进入数据仓库时候需要统一保存到同一个表里时,为保证主键唯一性,需进行检核工作。
4)数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多余字符、乱码。
5)记录数检核:指各个系统相关数据之间的数据总数检核。