MaxCompute进行数据质量核查

MaxCompute进行数据质量核查

数据质量的相关概念

什么是数据质量?
  • 数据质量顾名思义是数据的质量
  • 数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障
  • 数据质量是数据分析应用的基础,为了获取可靠的数据,企业必须密切关注数据的质量,数据质量是直接影响系统应用成功的关键
什么是数据质量管理?
  • 数据质量管理是指对数据从计划 获取 存储 维护 应用 消亡生命周期的每个阶段的各类数据质量问题,进行识别 度量 监控 预警等一系列管理活动
  • 数据质量管理不仅包含了对书记质量的改善,同时包含了对组织的改善,针对数据的改善和管理,主要包括数据分析 数据评估 数据清洗 数据监控 错误预警等内容
  • 针对组织的改善和管理,主要包括确立组织数据的质量改进目标,评估组织流程,制定组织流程改善计划制定组织监督审核机制 实施改进 评估改善效果等环节
为什么进行数据质量管理?
  • 企业数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力,并在经济动荡时期立于不败之地
  • 大数据时代,如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生不可估量的结果
  • 目前,分析系统中数据流转和处理环节越来越多,数据管理系统越来越复杂,数据质量出错的环节就越显增多
  • 为保证数据更好的为公司及企业的战略提供正确 有力的支撑,必须要保证数据质量的准确性,进而必须要进行严格的数据质量监控,来保证数据的可靠性和高质量

数据质量的影响因素

  • 需求过程引发的
    需求过程引发的问题主要指需求设计,开发,测试上线等过程中引发的数据质量问题
    此类为题的主要是因为需求过程中管理机制和流程不健全导致的
  • 数据源引发的
    上游数据不完善或者不规范导致下游系统受到影响,出现数据质量问题
    主要有几个方面:信息不正确 信息不完整 信息不一致
  • 统计口径引发的
    统计口径引发的问题主要是指KPI 报表等指标 口径中存在的数据质量问题 包括指标准确性 一致性 和完整性
    不同源系统或不同业务部门对相同名称指标的定义和口径不同
    业务部门在描述或定义指标口径是存在不明确或不完善的地方,造成了指标口径的二义性
  • 系统自身
    开发运维过程
常见数据质量错误类型
  • 错误值 由于字段类型与实际存放数据差异,或录入信息出错而导致的数据错误
  • 重复值 数据记录中存在完全一样的重复记录,或从业务上理解不可能存在关键信息出现重复记录
  • 数据不一致 数据记录是否符合规范 是否与前后及其他数据集合保持统一 ,数据的一致性主要包括记录的规范合逻辑性
  • 数据完整性 是否完整 缺失
  • 缺失值 人为原因 机械原因
  • 异常值 数据记录中出现 明显的数据偏差或者数据错误的记录
MaxCompute(原ODPS)大数据计算服务
  • 分布式
  • 安全易用
  • 易用
  • 管理和授权
DataIDE简介大数据开发集成环境
  • 强大的Open API
  • 数据开发
  • 数据管理
  • 作业调度
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值