本文阐明了数据之旅如何通过彻底检查不同的数据之旅类型——“观察者”“旅行者”“枢纽和轮辐”和“有效载荷”来增强数据治理,提高运营效率,并最终促使企业成功。
数据团队及其数据旅程的类型
在数据管理和分析的快速发展中,数据团队面临着从数据接收到端到端可观察性的各种挑战。
这篇文章深入探讨了各种类型的数据团队所遇到的复杂性——数据摄入团队、端到端数据产品团队和企业数据支持团队等等,它探讨了为什么“数据之旅”功能可以解决这些挑战。无论是数据摄入团队在处理分散的数据库所有权和不稳定的数据环境,还是端到端数据产品团队在处理实时数据可观察性问题,本文都提供了可操作的建议。它还满足了需要个性化数据跟踪的专业数据消费者的独特需求。本文阐明了数据之旅如何通过彻底检查不同的数据之旅类型——“观察者”、“旅行者”、“枢纽和轮辐”和“有效载荷”来增强数据治理,提高运营效率,并最终促使企业成功。
数据之旅是什么?
数据之旅跟踪和监控数据堆栈的所有级别,从数据到工具,从代码到所有关键维度的测试。数据旅程提供关于开始时间、处理持续时间、测试结果和基础设施事件等指标的实时状态和警报。有了这些信息,数据团队就可以知道一切是否按时无误地运行,并立即识别出没有运行的部分。旅程为理解和观察数据分析系统中的复杂元素提供了一个背景。您可以在《数据之旅宣言》和《数据之旅的五大支柱》中了解更多关于数据之旅背后的原则和理念。
数据摄入团队对数据可观察性的挑战
数据摄入团队配备了各种工具,包括数据库、管道实用程序和ETL/ELT框架,而这面临着严重阻碍运营效率和数据可靠性的复杂挑战。最紧迫的问题之一是多个数据团队对数据库的所有权,每个团队都有自己的治理协议,这就会形成一个充满不一致和错误的不稳定的数据环境。这种分散的所有权模型使数据更新变得复杂,并导致错误数据不断涌入,使维护数据质量变得极其困难。该团队发现自己陷入了一场西西弗斯式的斗争,无法提供可信和经过验证的数据,结果却因各种利益相关者的不协调变化而再次受损。
此外,该团队还要处理大量无法控制的变化的数据对象,这使得他们几乎不可能回答关于管理的数据的基本问题。许多人和自动数据摄入过程对数据进行更改,加剧了这种控制的缺乏。这造成了一个混乱的数据环境,问责制难以捉摸,数据完整性受到损害,团队陷入了一个恶性循环:数据团队负责数据健康,但对其当前状态缺乏任何可见性。
“观察者”数据之旅如何帮助数据采集团队
两种类型的“观察者”数据之旅(DJ)为解决数据摄入团队的挑战提供了一种变革性的方法。它使被许多不断变化的数据对象淹没的团队受益。这种类型的数据旅程提供了一个连续的监控框架,可以通过数据质量检查来增强框架,以确保数据集和表格的质量。这样做可以实时了解数据质量,使团队能够在错误数据通过管道传播之前识别并纠正错误数据。这种主动的方法取代了那些通常以数据获取工作为特征的被动消防,提高了数据可靠性和操作效率。
它还解决了管理频繁刷新的数据对象的需要。在这个模型中,数据对象被视为“牛,而不是宠物”,这意味着它们是可互换的,而不是单独管理的,这对于高通量、可扩展的数据管道来说是理想的。从数据的角度来看,观察器的综合视图包括数据集、表、模式、测试结果、异常情况和概要文件信息。此外,它允许实现特定于每个DJ实例的规则和警报,从而自动化治理过程并确保数据的完整性。通过采用这些“观察者”的数据旅程,数据摄入团队可以显著提高他们管理复杂的、动态的数据景观的能力,使他们更加敏捷和响应不断变化的业务需求。
端到端数据产品团队数据可观察性的挑战
端到端数据产品团队面临着一个与数据可观察性相关的特别令人烦恼的问题,该问题对内部运营和客户关系有着深远的影响。团队经常在最不合时宜的时刻,也就是在客户面前,发现与数据相关的问题。这会侵蚀客户的信任,并使团队处于被动状态,忙于识别和解决本应在数据生命周期早期发现的问题。“不知道下一个问题将在哪里出现”的不确定性造成了这种担忧的气氛,使利益相关者很难保证其数据产品的可靠性。此外,这些端到端数据产品团队通常负责这些流程的执行和开发,团队花在灭火上的时间占用了提供新业务解决方案所需的宝贵时间。
每当发现数据故障时,就会出现“谁该受到谴责”的无聊游戏,这加剧了挑战。由于缺乏明确的数据可观察性和治理机制,很难确定故障的根本原因,导致内部摩擦和宝贵资源的浪费。这阻碍了生产力,并创造了一个有毒的工作环境,还可能扼杀创新和合作。如果没有一个强大的数据可观察性框架来实时洞察数据谱系、质量和运营指标,端到端数据产品团队将继续应对这些挑战,使其声誉和客户满意度面临风险。
“旅行者”数据之旅如何帮助端到端数据产品团队
“旅行者”数据之旅的采用可能会改变数据产品团队的游戏规则,特别是在解决数据可观察性挑战方面。此数据之旅旨在处理复杂的多工具数据生态系统,其中多个组件作用于数据,这与端到端团队的用例非常一致。“旅行者”在数据经过各个阶段和工具时提供了对数据的整体看法,从而能够“横向和向下”识别问题。这意味着团队可以在不同的组件和技术之间快速定位问题,并在数据管道的特定阶段垂直定位问题。“旅行者”的实时警报和分析功能确保任何异常或问题都能立即被标记出来,以便在这些问题到达客户手中之前进行快速干预。
此外,“旅行者”类型的数据之旅旨在与现有工具和系统快速集成,最大限度地减少与实施新数据治理解决方案相关的摩擦。它还结合了数据测试,以验证各个检查点数据的质量和完整性,从而减少了不知道“下一个数据问题可能出现在哪里”的不确定性和担忧。“旅行者”提供了一套全面的功能,从警报和分析到快速集成和数据测试,使端到端数据产品团队能够主动管理其数据环境。这种积极主动的方法消除了令人厌烦的指责游戏,使团队能够专注于提供高质量的数据产品,提高运营效率和客户满意度。
企业数据实现数据可观测性挑战
企业数据支持是中心,他们关联的“洞察创造者”是数据供应链的代言人。两个团队都面临着数据供应链中关键角色带来的独特挑战。数据支持团队的客户通常是内部利益相关者,他们依靠数据为各种功能创建洞察力。其中包括数据科学家和分析师、业务部门、产品团队和分支团队。作为下游数据流程的推动者,他们经常发现自己处于关键处理问题的关键,尤其是在数据到达客户之前的“最后一英里”。这种高风险的立场使他们在出现问题时经常成为指责的目标,因为数据质量或可用性方面的任何问题都可能产生直接而深远的后果。该团队一直面临着确保数据准确并按时交付的压力,这使他们容易受到数据交付最后阶段可能出现的许多问题的影响。
一些组织中弥漫着指责、沮丧和生产力低下的文化,这进一步加剧了困难局面。当问题发生时,立即的反应往往是找出替罪羊,而不是合作寻求解决方案,从而导致内部冲突和效率低下。这不仅阻碍了团队快速解决问题的能力,还创造了一个不利于创新和长期成功的有毒环境。缺乏统一、透明的数据可观察性和解决问题的方法,意味着问题更有可能一直持续,而不是从源头上解决,从而使指责和效率低下的循环长期存在,破坏了团队为其联合客户提供强大、可靠、可信的数据洞察力的核心使命。
“枢纽和轮辐”数据之旅如何为组织带来成功
启用“数据支持”和“洞察创造者”数据之旅(DJ)可以成为组织成功的基石。枢纽和轮辐数据旅程是监控数据生产和分发的中心纽带,确保下游客户拥有精心策划的数据集和表格,并为其客户提供正确的见解。轮辐数据旅程通过“合同”提供原始数据并增加价值,该合同是数据质量和完整性的蓝图,确保下游消费者——数据科学家、业务分析师或其他部门能够信任其数据。轮辐 DJ为生产者/消费者关系奠定了坚实而透明的基础。
在等式的另一边,轮辐数据旅程监控洞察创造者的工作。这些Data Kourneys从Hub手中接过接力棒,要么遵守所提供的合同,要么根据特定需求独立运营。这些通常是由独立团队管理的多工具数据过程,产生见解、分析或其他数据产品,还需要精细的可观察性来确保成功。
轮辐 DJ利用Hub团队所做的基础工作,创造可操作的见解,推动商业决策。这种分层的方法创造了一个良性循环,Hub团队专注于数据质量、治理和分发,轮辐DJ专注于成功的洞察力创建。这些组合的数据之旅允许在数据管理和利用方面进行专业化和深度化,从而获得更准确的见解、更好的决策,并最终在见解可信、及时和高质量的情况下获得组织成功。
苛刻的数据消费者需要个性化的数据可观察性
数据和分析团队面临着一系列独特的挑战,这些挑战是由一些要求“个性化”数据可观察性的需求数据消费者提出的。这些关键客户不满足于一般的状态更新;他们希望实时、精细地了解“他们的数据”在复杂的数据生产过程中的状态。这需要在许多系统和工具中跟踪特定的数据“有效载荷”,这是一项技术要求高、资源密集的任务。为了实现这一点,数据团队必须启用复杂的跟踪机制,这些机制可以在摄取、转换和交付的各个阶段跟踪有效载荷,同时确保他们可以将状态传达给相关的数据消费者。
由于需要根据每个客户独特的数据,处理有效负载状态定制个性化监控和警报,复杂性进一步增加。这种级别的定制超出了大多数现成数据可观察性平台的能力,并要求每个个性化客户负载都有一个唯一的数据旅程实例。数据团队必须回答“我的数据在哪里”的问题,同时保持运营效率和数据质量,以确保客户满意度并保持团队的可信度。
“有效载荷”数据之旅,如何快速回答“我的数据在哪里”的问题
对于数据和分析团队来说,“有效载荷”数据旅程(DJ)的引入可能是一个改变游戏规则的解决方案,他们正在努力应对向要求苛刻的数据消费者提供个性化数据可观察性的挑战。“有效载荷”DJ专门设计用于跟踪单个数据有效载荷在多组件和多数据集旅程中的状态。有效载荷DJ使用实时跟踪机制,提供了各种系统和工具中每个有效载荷状态的细粒度视图。它可以向与该数据负载相关的特定“客户”或利益相关者发送有针对性的警报,这样可以确保客户立即收到影响其数据的任何更改、延迟或问题的通知,实时回答“我的数据在哪里?它的状态如何?”这一长期存在的问题。
对于要求苛刻的数据消费者,“有效载荷”DJ是一个个性化视图,可以透明地了解其特定数据有效载荷的状态,这提高了客户满意度并建立了信任,因为消费者可以随时独立验证其数据的状态、质量和完整性。实时警报起到了额外的保证层的作用,通知客户数据旅程中的任何关键事件或里程碑。通过采用“有效载荷”DJ,数据和分析团队可以有效地满足要求苛刻的数据消费者的高期望,为他们提供所需的个性化数据可观察性水平。
结论
数据团队不必自己开发这些数据之旅功能,DataOps可观察性可以提供这些数据之旅,几乎不需要开发,也几乎不需要对生产流程进行任何更改。
DataOps对于数据团队的重要性不言而喻,智领云云原生DataOps,云原生技术下的DataOps方法论实践,以云原生的方式在平台上运行大数据应用,使数据不再孤立地分布于多个云的孤岛中,从而可以从任何地方流畅安全地进行移动,并以一致、整体的方式管理数据从准备到报表阶段的整个生命周期。
目前,由智领云自主研发的Kubernetes Data Platform(简称KDP),作为市场上首个可完全在Kubernetes上部署的容器化云原生大数据平台,深度整合了云原生架构的优势,将大数据组件及数据应用纳入Kubernetes管理体系,标准化系统管理,提升系统运行效率,降低运维成本,消除应用孤岛及数据孤岛,解决传统Hadoop大数据平台在部署、运维,运行效率上由于架构限制带来的难点。
扫码关注云原生大数据平台KDP
践行云原生DataOps
关注公众号,回复关键字【DataOps】,获取2023年DataOps白皮书。
- FIN -
更多精彩推荐
👇点击阅读原文,了解更多详情。