[ETL] 数据质量

前言面试官:看你写 有参与过数据清洗ETL之类的工作? 讲讲你这个项目中数据质量是怎么做的
:啥数据质量?

GG
在这里插入图片描述

概念

数据质量是一种通过测量和改善数据综合特征来优化数据价值的过程。是通过数据收集 、数据识别/匹配 、数据标准化 、数据清理和数据聚集来实现数据质量。

由于数据仓库对数据的要求比较严格。错误的数据不仅会带来数据仓库自身维护的高昂费用 ,而且更重要的是会导致制定糟糕的决策。数据质量问题是数据仓库建设中必须加以认真对待的事情。

数据质量问题

数据质量 与数据的收集来源 、处理和使用都有关系。
在这里插入图片描述

数据质量控制方向

根据数据仓库的数据流程 ,对数据仓库数据质量的控制需要从三个方面来控制 :

在数据收集方面
针对数据源的检查工具
通过编写匹配程序,实现多数据源中不一致数据的检测和定位。在数据获取阶段保证数据定义的一致性 、元数据定义的统一性

数据存储阶段
数据存储是实现高水平数据质量的基本保障,如果数据不能被一致 、完整 、有效的存储 ,数据质量将无从谈起。因此 ,企业要想充分挖掘大数据的核心价值 ,首先必须完 成传统 的结构化数据存储处理方式向同时兼具结构化 与非结构化数据存储处理方式的转变根据大数据结构的要求和特点合理地设计 数据存储和使用规则 ,以方便对数据的快速读取产生 错误 、无效的数据

针对数据仓库数据管理的工具
有些 “过期 ”的数据甚至与实际数据不符 ,企业根据这些 “过期”的无效 数据所做出的决策必然也是无效 的,甚至是错误的。 从这个角度来讲 ,数据及时性也是大数据质量的一个重要方面。

数据质量评估维度

完整性
规范性
一致性
准确性
唯一性
关联性

数据质量管理系统

在这里插入图片描述

数据质量管理产品

Informatica Data Quality(商用)
SAS Data Quality(商用)
Trillium Software(商用)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值