什么是数据观察(Data Observability) ?

文本在网络上整理关于数据观察的理念,了解并应用数据观察,可以提升数据工程能力,降低组织数据治理成本,最终提升客户满意度。在这篇文章中,我将更详细地探讨这些概念,包括什么是数据可观察性,什么不是数据可观察性,它适用于谁,以及如何为你的平台选择正确的数据可观察性解决方案。

数据观察提供了对数据和数据系统健康状况的全面可视化,因此,你能够第一时间知道数据何时出错、什么地方出了问题以及如何修复它的人。此类问题的解决方案有机器学习异常检测,快速根本原因分析能力以及端到端到端数据血缘追踪能力。这种方法产生了更健康的数据管道,提高了团队生产力,增强了数据管理实践,并最终提高了客户满意度。

数据观察的起源

实际工作中这类场景经常遇到,我们提交数据分析报告后,很快就会收到关于数据问题的通知。不管我们的ETL管道有多强大,或者我们检查了多少次SQL,我们的数据就是不可靠。

当然这类问题非常普遍,大家讨论最大的痛点,达成一致的共识为:数据停机时间排在首位。

随着数据系统变得越来越复杂,支持着无尽的数据源和消费者生态系统,数据中断(即数据有偏差不可用、错误、缺失或不准确的时段)只会越来越多。

与DevOps将可观察性应用于软件的方式大致相同,我认为数据团队是时候利用同样的勤奋,开始创建数据可观察性类别,作为一种更全面的方法来处理数据质量。在定义类别的同时,我还定义了5个关键支柱,这些支柱至今仍在定义数据的可观察性。

数据观察关键支柱

数据可观测性的五大支柱是:新鲜度、数据质量、数据规模、数据描述、血缘关系。这些核心组件组合在一起为数据质量和系统可靠性提供了有价值的见解。“可观测性” 是许多数据领域领导者可能从DevOps工作中就已经熟知的概念,但当涉及到数据时,我们实际上要观测的到底是什么呢?下面让我们更详细地解释下五个支柱。

  • 新鲜度

新鲜度旨在了解数据表的最新程度,以及表更新的频率。新鲜感在做决定时尤为重要,因为陈旧的数据基本上等同于浪费时间和金钱。

  • 数据质量

你的数据管道可能处于工作状态,但流经它们的数据可能是垃圾。质量支柱关注数据本身以及诸如null值百分比、唯一值百分比以及数据是否在可接受范围内等方面。根据数据的预期,数据质量可以让你深入了解表数据是否可信。

  • 数据规模

数据规模指的是数据表的完整性,并为有关数据源运行状况提供判断依据。如果2亿行突然变成500万行,你应该知道。

  • 数据模式

数据schema的变化(换句话说,模式的变化)通常表明数据损坏。监视谁以及何时对这些表进行了更改,是了解数据生态系统健康状况的基础。

  • 血缘关系

当数据中断时,第一个问题总是“在哪里?” 数据血缘可以告诉你哪些上游来源和下游应用受到了影响,以及哪些团队正在生成数据以及谁正在访问数据。良好的血缘关系还收集有关数据的信息(也称为元数据),这些信息涉及与特定数据表相关的治理、业务和技术指南,作为所有消费者的单一事实来源。

数据观察的重要性

数据可观察性之所以重要,有两个原因。对于数据工程师(和开发人员)来说,数据可观察性很重要,因为数据停机意味着浪费时间和资源;对于数据消费者来说,这同样重要,因为它会侵蚀决策的信心。

图

数据可观察性很重要,因为数据停机的后果可能很严重。

从这个意义上说,数据管道监控和数据可观察性的价值几乎是无价的。话虽如此,当你在构建自己的商业案例时,首席财务官不太可能接受“无价之宝”。那么,让我们看看数据团队是如何度量数据质量的。

$DDT = N * (TTD + TTR) $

D D T : D a t a d o w n t i m e , N : N u m b e r o f i n c i d e n t s , T T D : T i m e t o d e t e c t i o n , T T R : T i m e t o r e s o l u t i o n DDT: Data downtime,N: Number of incidents,TTD: Time to detection,TTR: Time to resolution DDT:Datadowntime,N:Numberofincidents,TTD:Timetodetection,TTR:Timetoresolution

数据停机的公式

通过将环境中的表格数量除以15,可以简单地计算出您每年发生的事件的估计数量(无论您目前是否正在捕获它们)。然后,您可以将这个数字乘以平均检测时间和平均分辨率时间。如果您目前没有捕捉到这些指标,不要担心,你不是唯一。

行业研究显示,行业平均时间分别为4小时和9小时——你可以根据组织的数据质量成熟度随意使用或调整这些估计值。祝贺你,现状可以计算出了您的数据停机时间!现在你可以估算它的成本,从而推算数据观察解决方案的价值。

总结

本文解释数据观察的概念及其重要性,后续继续讨论数据观察与数据测试、监控等概念的区别,以及采用那些工具实现数据观察。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值