数据质量的问题:典型的有数据遗漏、数据错误、多义字段、矛盾值、违背业务规则、主键重复、无法关联、没有意义的默认值等
问题是如何产生:管理因素:各个部门独立设计自己的应用系统,业务定义相互冲突。
系统因素:例如某些应用程序测试不充分,不断产生错误的操作型数据。
数据迁移因素:业务系统更新后,会增加、删减或修改部分旧的业务规则,在将老数据迁移进新系统后,可能会引入缺漏、错误、 无法关联等遗留问题
问题来源:输入,各个部门独立设计,历史变化, 标准不足,质量检测
如何保证数据质量:打造一个没问题的数据库
1在源数据库中修改。2在数据的抽取转化清洗阶段etl阶段解决,存入新数据库
数据管理方案:
1建立统一的数据标准和数据定义,同时,整个企业必须就这个数据标准和数据定义达成共识
排除错误、数据整合和数据标准化从来就不是一件容易的事情
2检测数据质量:如何检测:
发现问题、收集和整理问题、分析问题、排列问题重要性、提出解决措施