MaxCompute进行数据质量核查
数据质量的相关概念
什么是数据质量?
- 数据质量顾名思义是数据的质量
- 数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障
- 数据质量是数据分析应用的基础,为了获取可靠的数据,企业必须密切关注数据的质量,数据质量是直接影响系统应用成功的关键
什么是数据质量管理?
- 数据质量管理是指对数据从计划 获取 存储 维护 应用 消亡生命周期的每个阶段的各类数据质量问题,进行识别 度量 监控 预警等一系列管理活动
- 数据质量管理不仅包含了对书记质量的改善,同时包含了对组织的改善,针对数据的改善和管理,主要包括数据分析 数据评估 数据清洗 数据监控 错误预警等内容
- 针对组织的改善和管理,主要包括确立组织数据的质量改进目标,评估组织流程,制定组织流程改善计划制定组织监督审核机制 实施改进 评估改善效果等环节
为什么进行数据质量管理?
- 企业数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力,并在经济动荡时期立于不败之地
- 大数据时代,如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生不可估量的结果
- 目前,分析系统中数据流转和处理环节越来越多,数据管理系统越来越复杂,数据质量出错的环节就越显增多
- 为保证数据更好的为公司及企业的战略提供正确 有力的支撑,必须要保证数据质量的准确性,进而必须要进行严格的数据质量监控,来保证数据的可靠性和高质量
数据质量的影响因素
- 需求过程引发的
需求过程引发的问题主要指需求设计,开发,测试上线等过程中引发的数据质量问题
此类为题的主要是因为需求过程中管理机制和流程不健全导致的 - 数据源引发的
上游数据不完善或者不规范导致下游系统受到影响,出现数据质量问题
主要有几个方面:信息不正确 信息不完整 信息不一致 - 统计口径引发的
统计口径引发的问题主要是指KPI 报表等指标 口径中存在的数据质量问题 包括指标准确性 一致性 和完整性
不同源系统或不同业务部门对相同名称指标的定义和口径不同
业务部门在描述或定义指标口径是存在不明确或不完善的地方,造成了指标口径的二义性 - 系统自身
开发运维过程
常见数据质量错误类型
- 错误值 由于字段类型与实际存放数据差异,或录入信息出错而导致的数据错误
- 重复值 数据记录中存在完全一样的重复记录,或从业务上理解不可能存在关键信息出现重复记录
- 数据不一致 数据记录是否符合规范 是否与前后及其他数据集合保持统一 ,数据的一致性主要包括记录的规范合逻辑性
- 数据完整性 是否完整 缺失
- 缺失值 人为原因 机械原因
- 异常值 数据记录中出现 明显的数据偏差或者数据错误的记录
MaxCompute(原ODPS)大数据计算服务
- 分布式
- 安全易用
- 易用
- 管理和授权
DataIDE简介大数据开发集成环境
- 强大的Open API
- 数据开发
- 数据管理
- 作业调度