数据仓库如何保证数据质量
1、从技术层面我们需要构建一套高效、健壮的ETL程序去保证数据清洗、转换后数据的正确性和一致性
举个简单的例子:对日期格式的处理,源系统有2013-30-08 2013\8\30 20130830 2013-08-40 等多种不规范格式要考虑合面,统一清洗转换成一致性数据2013-08-30,同时对错误数据进行剔除
并且系统提供事后自动检验机制,支持灵活的自定义检验逻辑,数据一旦违反,给予预警!
2、从流程上来说整个ETL是多个任务,按步骤顺序执行的一个过程,后置任务依赖前置任务,定期执行,,整个流程需要自动化,并且哪个环节出现了问题,给予预警,通知相关维护人员及时处理
3、从管理层面上来说,数据仓库是构建在公司各个业务系统之上,它是一面镜子,很多时候它能反映出业务系统的问题,所以需要管理层的支持和约束,比如通过第一条说的事
后自动检验机制反映出业务系统的维护错误,需要相应的业务系统维护人员及时处理