让数据更有价值,采用数据网格,克服集中式数据湖局限

ccd1a36cebbeff551c74d86ab844d4ff.gif

十多年来,组织一直在采用数据湖来克服数据仓库的技术限制,并逐步向更以数据驱动的实体发展。虽然许多组织利用数据湖探索新的数据使用案例并改进了数据驱动方法,但其他组织发现很难获得所承诺的收益。因此,许多数据湖计划的效率和投资回报率受到了质疑。

规避陷阱:

当数据湖变成“数据沼泽”

随着一些组织在管理大量数据存储和避免“数据沼泽”方面面临挑战,科技界对数据湖的看法已经发生了变化。在“数据沼泽”中,数据虽然被存储但未被使用。这些“数据沼泽”是大型存储库,数据被无差别地倾倒其中,导致可发现性和可用性问题。集中化管理可能会造成瓶颈,从而减慢访问和分析速度,但如果缺乏严格的治理,数据质量会迅速恶化。

此外,对于数据湖实行一刀切办法,实际无法满足不同业务领域的具体需求。由于缺乏适当的工具或数据本身的复杂性,用户难以从数据湖中提取价值,使得数据湖的潜力往往无法充分发挥。

执行良好的数据湖

 执行不力的数据湖

单一数据源

难以访问的数据孤岛

高性价比的存储

存储大量不必要的数据

数据访问便捷易上手

访问数据所需的专业技能

数据格式的灵活性

数据质量差且不一致

先进分析和机器学习

难以从大量非结构化数据中获取价值

更快的洞察力

冗长的沟通、缺乏工具、接口和技能

精简的数据管理

随着业务量的增长,管理变得越来越繁琐

数据生产者与消费者:组织鸿沟

这些问题的根源在于数据生产者和消费者与中央数据湖团队之间的组织互动。数据生产者往往更倾向于开发新的应用程序功能,而不是提供可用于分析用例的数据。他们专注于事务性而非分析性工作负载,这意味着他们共享的数据质量无法保证。有时,甚至会与数据消费者脱节,导致生产内容与需求不匹配。

对于数据湖团队,需要应对大量数据源,必须执行复杂的技术维护,并不断衡量决策优先级的变化。由于分析能力有限且与数据生产者脱节,消费者对缺乏透明度、不清晰的价值以及需求优先级被低估而感到沮丧。数据消费者和生产者通常不会直接互动,这种沟通被数据湖的代理组织所分隔,因为所有数据都集中存储在那里。

通过数据网格赋能团队:

通往分布式数据生态系统

科技界的讨论已转向一种更细致入微且可适应的数据策略,即数据网格,它旨在通过推广分布式、以人为本和特定于上下文的数据管理方式,来克服集中式数据湖的一些局限性。

数据网格是解决集中化问题的另一种方法。它将分析数据的责任分配给构建和运行应用程序并产生事务数据的特定领域团队,例如电子商务团队,以及那些消费数据并用于获取洞见的团队。例如,拥有网店结账页面将销售数据存储在事务数据库中的团队,比如营销或财务团队,负责为分析、报告生成式 AI 与机器学习用例提供销售数据。数据网格使消费者更容易、更简单地使用这些分析数据。

这不仅仅是实现另一个接口——数据被作为独立的数据产品提供,为实际消费者带来特定利益。这种数据产品由特定数据及其元数据、准备和交付数据所需的源代码、必要的测试和生产基础设施(IaC)及其配置组成。

培养数据素养:

在数据网格团队中引入新角色

创建和使用数据的团队,有可能会缺乏开发和管理分析数据的专业知识。然而,他们对数据的业务背景有深入的了解,这是非常宝贵的。在数据网格框架中,通过培养这些团队实施分析用例至关重要。这包括为现有成员提供大量培训,并创建额外的专门角色。其中,两个关键角色至关重要:数据产品负责人负责指导数据的战略方向;数据工程师则负责构建和管理这些数据产品的技术方面。

数据产品负责人是以业务为导向的数据人员,他们从事务和分析的角度了解业务领域,直接与数据产品的消费者沟通,并定义产品及其战略和路线图。

数据工程师在数据工程和数据科学方面是全面的通才,在业务所需的某个数据相关领域拥有更深的专业知识。该角色构建实际的数据产品,也是其他团队提出技术问题的对接人。

为成功奠定基础:

数据网格平台

为充分发挥数据网格的潜力,我建议将这两个角色直接嵌入到生产和消费团队中。一种有效但次优的变体(因为它重新引入了代理团队)是为每个业务领域(如电子商务)建立一个独立的数据网格团队。数据网格平台为生产者和消费者提供支持,使他们的工作更加高效。数据网格平台团队不创建数据产品,也不存储或处理数据。

数据网格平台有个角色:

1. 提供数据目录、访问控制、CI/CD 管道、监控以及预备开发和测试环境等工具和基础设施;

2. 培训和指导生产者和消费者,必要时通过额外的开发能力为他们提供支持;

3.以联邦方式制定必须在整个组织内遵守的通用标准和程序。

数据网格平台的使命是为生产者和消费者提供简单、高效、无压力的环境。

但是,成功且可持续地运行平台并不容易。我在博客文章中总结了我的经验,内容是如何建立有效支持开发团队的平台。

b4c318688efc21fd568495c198e352b0.png

如何建立有效支持开发团队的平台

扫码了解更多

如果正确执行,数据网格模型将促进主动维护数据质量、相关性和可访问性,并根据不同业务部门的独特需求量身定制数据产品。通过将分析数据与其操作上下文紧密结合,数据网格有助于组织内部更有效地使用和共享数据。它利用了现代分布式架构原则(如源自微服务架构的原则),不仅可以更高效地存储数据,还使数据可以随时使用,从而推动与业务目标紧密相关的可操作见解。

outside_default.png

相关阅读:

e3cdaeddd4457dbb35ad766227bf5a2c.png

什么是数据网格?

扫码立即查看

3694e4d52cdd3a7a8fec37db9c40f1b9.png

设计数据网格

扫码立即阅读

b76dfae3d8e68fa5400b99b517538531.png

数据网格架构

扫码立即阅读

左右滑动查看更多

本篇作者

637787610b392937e6f1f56f90ea3dd1.jpeg

Matthias Patzak

亚马逊云科技企业战略顾问

5e25d8af5057c308c51c9f927a00af7c.png

d7baf5d86e1e7c079e9f87a945250ee0.gif

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

8b16455fbb0d766bbbd5a46f2f7be047.gif

点击阅读原文查看博客!获得更详细内容!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值