什么是Data Mesh?

ThoughtWorks 在 2020 年 10 月发布的技术雷达中,将 Data Mesh 从“评估”调升到了“试验”(ThoughtWorks 对“试验”阶段的技术的建议是:“值得一试。),这意味着 Data Mesh 已经通过可行性验证,转而进入建议采纳阶段。据了解,包括 Zalando、Intuit、Netflix、JPMorgan Chase 等公司都已经在尝试实践 Data Mesh 这个概念。

Data Mesh的起源

Data Mesh 的概念起源于 ThoughtWorks 的首席技术顾问 Zhamak Dehghani 发表在 Martinfowler 官网上的两篇文章《How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh》和《Data Mesh Principles and Logical Architecture》。

Data Mesh 概念的提出吸引了不少人的关注,有很多公司尝试去实践了这个概念,包括JPMorgan Chase、Intuit、Netflix等公司。

诞生的缘由

没有一个概念是无缘无故提出来的,Data Mesh 的诞生也是基于某些现状而提出来的。Zhamak Dehghani 认为对于很多公司的数据平台而言,面临着下面的问题:

第一代:专有的企业数据仓库和商业智能平台; 价格高昂的解决方案给公司留下了同样大量的技术债务; 数以千计的 ETL 作业、表和报告中的技术债务,只有少数专业人员了解这些工作、表和报告,导致对业务的积极影响没有得到充分认识。

第二代:以数据湖为银弹的大数据生态系统; 复杂的大数据生态系统和由高度专业化数据工程师组成的集中团队操作的长时间运行的批处理任务,创造出了数据湖怪物,最多只能使大量的研发分析成为可能; 承诺过多,实现不足。

即使是后面的第三代平台,也依然存在着不少的问题

第三代和当前一代数据平台都或多或少类似于上一代, 虽然有些现代的转变:(a) 实时数据流可用性架构如 Kappa,(b) 统一的批处理和流处理数据转换框架 如 Apache Beam,(c) 完全采用 基于云的存储管理服务, 数据流水线执行引擎和机器学习平台。很明显,第三代数据平台正在解决一些前几代的一些空白,如实时数据分析,以及降低管理大数据基础设施的成本。然而,它仍然具有许多导致上一代失败的潜在特征。

总结而言就是:企业想要去查一本字典,但是这本字典没有任何索引,并且这本字典的词汇是随机排列的,因此需要雇佣一群数据工程师和分析师去帮助解读这本字典。这里的字典就是所谓的数据。

因此 Data Mesh 试图解决这些问题。

Data Mesh 核心思路和架构逻辑

Data Mesh 实际上是一组数据平台架构原则,融合了分布式领域驱动的架构(Distributed Domain Driven Architecture)、自助平台设计(Self-serve Platform Design)以及将数据视为产品(Thinking Data as a Product)的思维。

有别于数据仓库 / 数据湖的集中式单体架构,Data Mesh 是高度分散的数据架构。

对于 Data Mesh 的核心设计思路,可以总结为以下几点:

  • 从业务域视角出发,将业务解耦之后映射到数据视角,再将数据解耦,减少数据冗余度;

  • 将数据作为产品,使数据服务端到端完备,就像一个微服务一样,可以被直接访问和调用;

  • 自服务的基础设施,微服务的成功很大程度上归功于它有非常成熟的基础设施,比如 Spring Cloud、K8s 等,而数据的基础设施相对于微服务的成熟架构还有所缺失,这也是未来需要持续发力的地方;

  • 生态治理,站在消费者使用数据的业务链调用看数据是怎么被消费的,制定数据治理规范,让数据更为透明和易于使用;

  • 通过网格编排的思想设计数据走向,使数据产品能够支持不同模块、不同域的衔接。 

1264a4b8541b7bd907aa619cece5a99b.png

在 Data Mesh 架构下,治理的始终是具有业务价值的数据服务,而不是一个个的原始数据文件。Data Mesh 的架构逻辑如上图:底层需要可自服务的数据基础设施,至少具备稳定性和可伸缩性两项能力;基础设施之上,面向域构建一个个端到端的数据消费服务提供给上层业务,可以认为每一个服务对应的就是一个数据产品,比如某个数据仓库可能抽象成 Data Mesh 中的一个 Data Service,每一个 Data Service 会包含算力、存储和服务这三项。

不同的数据服务之间会有一个数据服务注册和调度中心,可以让不同的 Data Service 形成业务所需要的一系列数据服务编排。另外,围绕数据服务中心会形成数据授信访问申请、元数据管理、数据服务管理等一系列能力。

6e24b7ddabe775dea2a13fac08d34d01.png

如果从软件架构的视角来理解 Data Mesh,则微服务映射过来就是 Data Service,基于微服务编排设计出来的 Application 映射过来就是 Data Product,基于很多 Application 编排生成的网格 Service Mesh 映射过来就是 Data Mesh。

Data Mesh 目前有两种落地形态,一种是闭环服务,也就是一个平台提供工具的同时还提供结果管理服务,并且只能在平台内部完成全生命周期的管理,即 Data as a Service;另一种形态则是平台提供数据和工具能力,但是工具能力为可选项,业务可以使用自己的工具,也可以使用平台的工具,即 Data Platform as a Service。

Data Mesh 如何指导您的数据团队?

Data Mesh 旨在通过专注于域驱动的设计来解决这些问题,并引导领导者走向“现代数据堆栈”,以实现元数据和数据管理的集中化和分散化之间的平衡。

Data Mesh 不仅仅是技术架构,它是一种围绕数据所有权及其激活组织自己的方式。成功部署后,数据网格将成为基于六个关键原则的现代数据堆栈的基础。为了使你的Data Mesh 正常工作,数据必须是可发现的、可寻址的、可信赖的、自描述的、可互操作的、安全的。  

如果你的最终目标是从数据中驱动“商业价值”,那么Data Mesh 概念对你有何帮助?今年你最大的挑战之一可能是避免陷入有关Data Mesh 的流行语狂热炒作中,而要专注于使用Data Mesh 作为实现最终目标的一种方式。 那么,有两个关键概念需要考虑:

首先,Data Mesh 不是开始

你需要的数据应该处于分布式状态。它将在本地、在云中,或是在多个云中。问问自己的团队:“我们是否清点了所需的所有数据?我们明白这一切在哪里吗?”  

请记住,根据 Dehghani 的原始论文,为了让您的Data Mesh 正常工作,您的数据需要“可发现、可寻址、可信赖、自描述、可互操作且安全”。这假设在Data Mesh 阶段之前有一个阶段。

其次,Data Mesh 不是终点

既然我们已经确定了Data Mesh 需要一个数据基础才能成功运行,那么让我们来探索一下数据网格会引导你做什么。如果你的目标是从数据中产生价值,如何实现Data Mesh 的结果?这就是数据产品发挥作用的地方。

我们知道数据的价值来自于它的使用和应用。在这里指的是智能且丰富的数据产品,它们触发行动以创造价值并保护你的员工和业务。考虑网络异常检测、银行账户欺诈预测或实时创建卓越客户体验的推荐引擎。

换句话说,虽然数据海洋是设置数据网格以取得成功所需的架构基础,但Data Mesh 本身是使你的团队能够构建数据产品的组织模型。如果每家公司都是“数据公司”,它的货币就是可以输出的“数据产品”,它的可重复性和可靠性,这是麦肯锡分析公司创造的“数据工厂”概念。

目前国内外有很多企业都已经在尝试实践 Data Mesh 的架构理念,尤其是一些数据规模特别庞大的企业,他们已经碰到集中式单体数据架构的瓶颈,开始探索向面向域的分布式数据架构转变以解决问题,只是他们可能没有将这个概念抽象总结成 Data Mesh。

以数据的力量驱动企业价值,尝试与探索新的数据解决方案与工具更为关键。现在由智领云自主研发的即开即用,快速搭建数据工程的轻量级云原生大数据开发平台,无需下载、无需配置,注册即可开箱使用大数据工程所需核心功能,就能够帮助开发者及企业开启大数据之旅。

如果大家对智领云发布的这款国内第⼀个纯K8s在线⼤数据平台——BDOS Online感兴趣,可以扫描下方二维码,获取28天免费试用机会。

6a36f929ec3e4017037a5aff7104f6ce.png

材料主要来源于

《How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh》

《Data Mesh Principles and Logical Architecture》

《Data Mesh,数据架构的下一个变革!》InfoQ 蔡芳芳

《What is Data Mesh 》Bruno Aziza Google Cloud 的数据和分析主管

#智领云公司简介#

武汉智领云科技有限公司成立于2016年8月,专注于云计算、大数据领域前沿技术的研发。公司创始团队成员来自于推特(Twitter)、苹果(Apple)和艺电(EA)等硅谷知名企业,是硅谷最早一批从事云计算和大数据研究与实践的技术专家,拥有十多年的云计算、大数据系统的系统架构和系统开发经验。公司作为拥有云计算、大数据领域核心技术的高科技企业获得了来自硅谷和国内知名投资人和投资机构的投资。公司于2019年4月获得线性资本数千万元pre-A轮融资,2020年7月获得由金沙江联合领投、线性资本跟投的数千万元A轮融资。

公司为企业级客户提供以云原生DataOps为底座的大数据平台数据中台/大数据平台数据中台系统解决方案;帮助企业搭建数据和AI中台实现云原生DataOps,轻松打造业务数据能力闭环,掌握全面、及时、更多维度的业务现状,提升数据驱动应用的迭代和发布速度;实现系统资产(人/资源/数据/应用) 在同一系统中的统一管理,建立数字化运营体系,并最终完成数据驱动的数字化转型。

公司在能源、教育、医疗健康、物联网、金融等行业同国内外很多知名企业和上市公司建立了合作关系,包括:D2IQ、埃克森美孚(中国)、一汽集团、极狐(GitLab中国)、南瑞信通、万达信息股份、中亦安图、深圳智宇、长江云通、湖北楚天云、万方数据股份、天喻教育、广州畅驿、上海和今、南京赛信等。公司与合作伙伴在多个领域中展开紧密的合作,充分利用各自的优势,共同为企业客户提供更有价值的云计算和大数据产品和技术服务。

b314266e0cf6368ac6b48ddd708c7c31.png

 推荐阅读 

👇点击阅读原文,全面了解BDOS Online。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值