Data Fabric,下一个风口?

Data Fabric,又名数据经纬,是近期横空出世的一个概念。之前对其了解甚少,近期做了个小调研,对这一概念内涵与外延、产品及定位、业务与前景、未来及趋势等做了简单整理总结,分享给大家。

1. 什么是Data Fabric

❖ 前世今生

Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 类别。从2019 年 Data Fabric 开始入选 Gartner 各年度的技术趋势。

Gartner发布的《2021年十大数据和分析技术趋势》中,加速变革被列在了首位(Accelerating Change),其中Data Fabric作为数据基础能力被再次强调。

2022 年 Gartner 公布的顶级战略技术趋势中,Data Fabric 入选工程信任主题的关键技术趋势。

❖ 基本概念

我们如何理解“Data Fabric”?Fabric这个词的本意是“织物、布、构造“。可以想象,数据将在纵横交错的、像织物那样的云网络中自由流动,没有任何限制。不管是哪种计算模式,还是什么的网络,针对批数据、流数据都可以自由交换、共享和处理,那就是数据经纬-Data Fabric带来的新体验。 目前对Data Fabric,还没有特别统一的认识,各家对其有着自己的解读。

  • Forrester 认为 Data Fabric“是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。”其专注于对数据集成、转换、准备、策展、安全、治理和编排的自动化,从而实现了快速的数据分析和洞察,帮助业务获得成功。

  • Gartner 将 Data Fabric 定义为一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付。Gartner 强调,通过 Data Fabric,散落各处的数据孤岛都能被统一发现和使用,并基于主动元数据进行建设和持续分析,认为数据编织的真正价值在于它能够通过内置的分析技术动态改进数据的使用,同时通过将自动化能力添加到整体数据管理中,使数据管理工作量减少 70% 并加快价值实现速度。

❖ 发展背景

一项新技术的出现,必然有其背景及规律,Data Fabric的出现也是为解决当前数据场景的问题。简单梳理下,可罗列为几个痛点(下列数据来自Gartner的调查报告):

  • 激增的暗数据&数据孤岛

随着企业数据量激增和数据需求日趋复杂,越来越多数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) 被引入,企业数据在物理上支离破碎,尤其是采用混合云&多云架构后更是加剧了这一问题。只有 45% 的结构化数据应用于业务,只有不到 1% 的非结构化数据被分析或使用,多达 68% 的数据没有被分析,多达 82% 的企业受到数据孤岛的阻碍。

  • 低效的数据交付方式

激增的企业数据、爆炸的业务需求、复杂的数据工程,让业务自助找数、用数变得日趋困难:分析师 80% 的时间用于发现和准备数据,知识型员工将 50% 的时间浪费在寻找数据、发现和纠正错误以及确认不信任的数据来源上、数据科学家花 60% 的时间清理和组织数据。

  • 日益严峻的数据质量问题

企业中 55% 的数据无法用于决策,47% 新创建的数据记录至少有一个严重错误,数据质量差导致了巨额的财务损失;为解决不同数据计算和存储需求,企业开始采用越来越多的数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) ,让实现“单一事实来源的数据”变得十分困难。

  • 不断扩大的安全合规风险

超过 70% 的用户可以访问他们不应该访问的数据。而随着网安法、数安法、个保法、GDPR、CCPA 等数据安全和隐私保护法律的出台和外部安全威胁越来越大,企业必须在合规和治理方面表现出更高的标准,更难的是,企业还需同时兼顾业务的用数效率。

Gartner称:“在过去的十年里,数据和应用孤岛的数量激增,而数据和分析(D&A)团队的技能型人才数量却保持不变,甚至下降。作为一种跨平台和业务用户的灵活、弹性数据整合方式,Data Fabric能够简化企业机构的数据整合基础设施并创建一个可扩展架构,减少大多数数据和分析团队因整合难度上升而出现的技术债务。其真正价值在于:通过内置的分析技术动态改进数据的使用,使数据管理工作量减少70%并加快价值实现时间。Gartner最新预测显示,至2024年,Data Fabric可减少50%人力数据管理成本,与此同时,数据使用效率会因Data Fabric的部署使用伴随着数据类型日益多样化、数据孤岛不断林立、数据结构愈加复杂,企业在分布式数据环境中高效管理和利用多维数据成为亟待解决的难题。与此同时,企业上云成为一大趋势,混合数据环境下企业该如何跨平台、跨环境,以实时的速度收集、访问、管理、共享数据,从不断变化、高度关联、却又四处分散的数据中获得可执行洞见,实现智能化决策?面对上述数据管理难题,Data Fabric提出了一套治理“良方”。Data Fabric是一种新兴的数据集成和管理理念,意在独立于部署平台、数据流程、地理位置和架构方法,在不移动数据位置的前提下,为企业内的所有数据提供单一访问点,保证数据使用端在正确的时间、正确的地点以实时的速度拿到正确的数据。

❖ 架构定位

Data Fabric这一概念,尤其鲜明的架构特点,这也是有别于其他技术的重要区别。其实质上是一种数据管理架构思想,其主要目标是打破企业内部的数据孤岛、最大化释放数据价值。其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从而提供比传统数据管理更多的价值。其具备以下特点:

  • 连接数据,而非集中数据

Data Fabric 的一个关键原则是数据集成方法的灵活性,以支持分布式生态系统中的数据管理。也就是说,根据场景的性质及其需求,系统能为用户自动匹配最佳集成策略和数据技术,而无需用户人工搭建数据管道、选型计算存储方案。这样做一方面让用户可以专注于业务实现而无需关心技术细节,另一方面也免去了数据搬运带来的漫长等待,并节省了大量任务运维投入和重复存储成本,极大加速了数据价值实现。

  • 自助服务,而非专家服务

数据需求指数级增长,而企业数据工程团队增长却非常缓慢,甚至有所缩减,在集中式的数据供给模式下,数据工程团队成为影响数据化运营效率的最大瓶颈,唯有让分析师和业务人员自服务才有可能将生产力解放出来,以满足业务旺盛的数据化运营需求。Data Fabric 的最佳解决方案是实现数据民主化,允许业务用户轻松发现并使用数据资产,从而实现敏捷的数据交付。

  • 主动智能,而非被动人工

传统数据治理往往在问题发生后才开始启动,且需要从上到下推动并通过运动式人工治理,这种方式难以持续且越来越无法应对快速膨胀、错综复杂的数据依赖网络。而 Data Fabric 则强调数据治理应更主动和智能,即基于主动元数据构建智能治理能力,融入到数据全生命周期的每个环节里去,实现主动、智能的数据治理。Gartner 将 Data Fabric 比喻成数据管理的'自动驾驶":驾驶员由于某些原因注意力不集中,有点儿走神,汽车则主动、及时地切换至半自动驾驶模式,进行必要的路线修正。即Data Fabric 以最佳的方式将数据源头传送到目的地,并不断的监控数据 pipeline,提出建议,最终在速度更快、成本更低的情况下采用替代方案,就如自动驾驶汽车一样。

  • 万物链接,而非简单替代

Fabric是一种架构方法,该方法在各个节点之间提供完整的点对点连接,这些节点可以是数据源、存储、内部/外部应用程序、用户等任何访问数据或与数据相关的信息。Data Fabric将现有的数据管理系统和应用程序编织在一起,提供可重用的服务,涵盖数据集成、访问、转换、建模、可视化、治理和交付。为了在所有这些不同的服务之间提供连接,Data Fabric包括了连接到数据生态系统工具的连接器。

Data Fabric 的“真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度”,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用 AI 能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,实现更快速的适应业务、更敏捷的数据洞察、更有效地消除孤岛、更低的成本和风险、更高效的业务协作以及更安全的数据使用。

❖ 关联对比

作为一种新生概念,有时会与其他概念和产品有所混淆,那么我们来看看Data Fabric与常用一些概念的区别。

  • Data Mesh

Data Mesh由ThoughtWorks提出,其借鉴了微服务和 Service Mesh 的分布式架构思想,是一种领域驱动和自服务的数据架构设计新模式,基于面向领域去中心化的数据所有权和架构、数据作为产品、平台化自助数据基础设施以及联邦计算治理等四个基本原则进行建设, 通过将系统划分为由较小的跨职能团队管理的离散域来解决大型、复杂、单体数据架构的问题,如缺乏数据所有权、缺乏数据质量管理、组织难以扩展。其核心目标是将数据视为一种产品,通过利用面向领域的自助设计来实现日益庞大、多样化且无处不在的数据集的跨域访问需求,使数据消费者能够发现、理解、信任和使用数据/数据产品(分布在不同领域)来推动数据驱动的决策和计划。

  • API 的访问方式不同。Data Mesh是面向开发同学、API驱动的解决方案,需要为API编写实现代码,而Data Fabric相反,其通过低代码、无代码的方式进行设计,API集成在架构内进行实现,而不是直接使用它。

  • 思想不同。虽然Data Fabric和Data Mesh 都提供了跨技术、跨平台的使用数据的架构,但前者以技术为中心,是将多种技术进行组合使用,由 AI/ML 驱动的增强和自动化、智能元数据基础和强大的技术骨干(即云原生、基于微服务、API 驱动、可互操作和弹性)支持,更多的是关于管理数据技术(集成架构),而后者则侧重于组织结构和文化变革来实现敏捷性,可以在于技术无关的框架内指导方案设计,各数据领域团队可以在更理解其所管理的数据的基础下实现相应的数据产品的交付,更多的是管理人员和流程。

  • 数据产品的实现思路不同。Data Mesh 将数据的产品思维作为核心设计原则,其数据是分布式的,每类数据都是一个独立的域(即数据产品),存储在对应的组织中,而Data Fabric所有的数据都会集中在一个位置(物理集中或虚拟集中),对外提供能力。其实,基于数据虚拟化集成技术的Data Fabric,其数据也是分布式的,通过虚拟逻辑数据模型对外统一提供数据使用。

  • 数据资产的自动化方式不同。Data Fabric利用基于丰富的企业元数据基础(例如知识图)来发现、连接、识别、建议和向数据消费者提供数据资产的自动化,而Data Mesh则依赖于数据产品/域所有者来推动数据需求。

  • 依赖关系不同。Data Fabric无需依赖Data Mesh的实践即可实施,而Data Mesh则必须利用Data Fabric来支持数据对象和产品的验证。

  • 自动化程度不同。Data Fabric鼓励增强数据管理和跨平台编排,以最大限度地减少人工设计、部署和维护工作。Data Mesh则倾向于对现有系统的手动设计和编排,由业务领域执行持续维护。

  • 解决方案的成熟度不同。成熟度上看,Data Fabric目前被广泛应用于各种数据应用场景,而Data Mesh仍然处在一个未开发的阶段。

实际上,不同的公司基于自身的数据特点(数据量、数据速度、数据类型等)、安全策略、技术储备、性能要求、资金成本等, 对于Data Fabric或Data Mesh会有不同的具体落地方案。总之,Data Mesh更多地是关注于人和过程而不是技术架构,而Data Fabric是一种技术架构方法,它以一种智能的方式来

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值