如果缺乏应用场景,元数据毫无用处

  意见,这就是为什么在解锁元数据的价值时上下文是关键的原因。

  

  > Image courtesy of Shutterstock.

  上周,我参加了由Fishtown Analytics团队(dbt的创建者)领导的Coalesce会议上的一个小组,讨论元数据在现代数据堆栈中的作用。我们讨论的要点之一是:元数据无用。在这篇博客文章中,我将解释原因。

  在过去的十年中,数据团队越来越精通收集大量数据。尽管这有可能推动数字创新和更明智的决策,但它也使公司淹没了他们无法理解或无法使用的数据。

  渴望成为数据驱动型组织的组织常常看不到这些森林:没有明确应用程序或用例的数据无非就是数据库中的文件或电子表格中的列。

  近年来,我们看到了数据的兴起:现在,公司正在收集越来越多的有关其数据的数据,即元数据。总的来说,对元数据的这种热情对于业界来说是一个巨大的胜利。像dbt这样的ETL解决方案使跟踪和使用元数据变得容易,而云提供程序使元数据的互操作性在堆栈中的数据解决方案之间更加无缝。

  不过,随着我们越来越依赖元数据,重要的是要记住不要重复这些相同的错误。

  更多元数据,更多问题

  就像没有上下文的数据只不过是一堆数字一样,元数据本身也没有用,只是有关其他信息的更多信息。随心所欲地收集所有数据,但是如果没有实际的用例,元数据将毫无意义。

  例如,沿袭是一种元数据,可跟踪数据管道中上游和下游依赖关系之间的关系。虽然令人印象深刻(霓虹色!节点!清晰的线条!),但没有上下文的世系只是让人眼前一亮,非常适合与高管进行演示–但是,老实说,没有什么其他的。

  

  Lineage without a business use case is just an empty March Madness bracket

  传承的价值并非来自拥有它的简单行为,而是在于它与特定用例或业务应用程序的相关性。

  世系在哪里真正有用?除了在精美的演示或PowerPoint演示文稿中看起来不错之外,数据沿袭可以是了解以下内容的强大工具:

  如何理解将影响消费者的数据更改并确定解决该用例的最佳措施

  举例来说,您想对特定字段进行更改。如果没有血统,您可能会盲目地进行更改-希望不会对下游产生影响(您:"手指越过,没有下游消费者会对此更改感到惊讶!")。

  通过使用字段和表级别的沿袭,您可以查看哪些特定的表,报告,最重要的是-使用这些资产的用户-会受到此更改的影响。

  数据资产损坏时如何解决问题的根本原因

  在另一种情况下,您可能会在午夜时分浏览有关您的团队应该在第二天早上呈现给执行人员的仪表板损坏的消息。您需要一种快速的方法来了解上游发生了什么,从而使您的Tableau图完全无用。

  但是,此问题的根本原因到底是什么?您需要修复数据仓库中的100,000个表中的哪一个?使用沿袭,您可以立即识别造成此数据停机的上游资产,并查明根本原因。

  如何将损坏的数据的影响传达给消费者

  最后,我们说数据中断(通常如此)-具体来说,ETL作业已完成,但此列中的数据现在为80%为空-本质上是无提示的故障。现在,您需要突出显示此无提示故障如何影响此数据的用户。

  您如何知道将受到影响的人,并应被告知此事?沿袭提供了一种快速简便的方法来传达发生的情况和发生的位置,以便在解决问题时让利益相关者保持了解。

  归根结底,沿袭和元数据可能对数据团队和整个公司具有巨大的价值,但前提是直接将其应用于您的业务。

  

  > When captured holistically and in the context of business applications, metadata has the potential to serve as a force multiplier for your entire company. Image courtesy of Barr Moses.

  当从整体上和在业务应用程序上下文中捕获元数据时,元数据有可能成为整个公司的力量倍增器。图片由Barr Moses提供。

  归根结底,您的元数据(包括但不限于沿袭)应该比基本的"谁,什么,在哪里,何时,为什么?"回答更多。关于您的数据。它应该使您的客户(无论是内部还是外部)都能够获得最新,准确的答案,以回答与客户的痛点和用例有关的问题,包括:

  · 这个数据重要吗?

  · 这些数据代表什么?

  · 这些数据对我的利益相关者有用吗?

  · 我可以安全且合规的方式使用这些数据吗?

  · 这个问题的答案从哪里来?

  · 当我进行更改时,谁依赖该资产?

  · 我们可以信任这些数据吗?

  许多数据团队正试图通过各种解决方案来回答这些问题,包括与建模和管道转换工具,数据目录,文档和沿袭挂钩的API。

  四种方法都能提供有关您数据的丰富见解,但它们缺少一项关键要素:将其应用于您的业务。

  应用就是一切

  没有用例的元数据就像骑自行车的大象。有趣且令人印象深刻,但不是很有用(除非您正在马戏团表演)。

  元数据的真正威力在于我们在何处,何时何地使用它,尤其是如何将其应用于我们要解决的特定及时问题。

  除了收集元数据和构建元数据解决方案之外,数据团队还需要问自己:此元数据服务于什么目的?如何应用它来解决实际和相关的客户痛点?

  就个人而言,我对元数据的未来感到无比兴奋。通过正确的方法,应用的元数据可以成为用于数据可观察性,数据治理和数据发现的强大工具,这是拥有准确,可靠和可信赖的数据的三个关键组成部分,可以为您的组织带来帮助。

  怎样从元数据中获得更多价值?接触Barr Moses和蒙特卡洛团队。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值