下一代数据架构Data Fabric到底是什么?

Data Fabric是一种数据架构思想,旨在通过统一方法管理异构数据工具链,提供灵活、业务可理解的数据交付,解决数据孤岛、集成复杂性、成本和安全问题。通过数据虚拟化、AI驱动的主动元数据等技术,实现更快的数据访问和洞察,降低成本,提升数据素养,助力数字化转型。
摘要由CSDN通过智能技术生成

本文有2.6W+字,阅读预计需要较长的时间,如果正在约会,建议之后再看。

数字化转型和升级已经是非常确定的发展趋势,十四五规划以及2035年远景目标纲要中针对数字化做了专篇论述,包括了数字经济、数字社会、数字政府和数字生态等部分。数字化趋势中,提升数据素养是基础,新技术的应用则是关键。数据素养意味着拥有有效单独和协作使用数据的能力,包括如数据分析、数据整理、数据可视化、数据生态、数据治理、组织建设等。随着数据工具的快速增长、数据与分析技术越来越深入的与业务交织在一起,业务的领导者与建设者都应该不断的提升自身的数据素养,从而能够就数据进行智能对话,推动产生更好的业务成果。

这个系列是数据领域实践的总结以及新技术趋势的学习,目的是不断的提升自身的数据素养,如果能给读者带来一些收益,甚至应用在自己的业务场景下,那也算是对大数据技术普及的一点点贡献了。正如前几年写的一篇文章中提到的,“数据的海洋浩瀚无边”,我们一起努力。

此篇为第一篇。

什么是数据素养以及如何培养?

Gartner 将数据素养定义为在上下文中读取、写入和交流数据的能力,包括理解数据源和结构、应用的分析方法和技术,以及描述场景、应用程序和产生的价值的能力[1]。提升数据素养的三个支柱:数据访问民主化、建设数据学院、始终如一的将数据应用于决策[2]。

引言

Gartner发布的《2021年十大数据和分析技术趋势》中,加速变革被列在了首位(Accelerating Change),其中Data Fabric做为数据基础能力被再次强调。Data Fabric在2000年首次提出,Forrester开始撰写更通用的Data Fabric解决方案[3],2016 年Forrester 在 Forrester Wave 中增加了Big Data Fabric类别,2019年开始入选Gartner各年度的技术趋势,2020年出现在新兴技术成熟度曲线以及数据管理成熟度曲线中(并从创新萌芽期发展到了2021年的过高期望的峰值),Gartner公布的2022 年顶级战略技术趋势中,Date Fabric入选工程信任主题的关键技术趋势。

随着数字化的推进, Data Fabric作为一种全新的、囊括所有形式的数据架构,被越来越多的企业用于解决数据资产多样性、分散性、规模和复杂性不断增加带来的一系列问题。DataFabric被视为应对始终存在的数据管理挑战——如高成本&低价值的数据集成周期、频繁运维带来的不断攀升的运维成本、不断增长的实时数据需求、事件驱动的数据共享等——的强大解决方案[4]。其用于任何数据类型的分析,并为所有的数据使用者提供无缝的访问和共享[5]。K2View认为Data Fabric是提升数据素养必备的数据能力之一, Gartner甚至认为“Data Fabric是数据管理的未来”[6]。

国内对于Data Fabric介绍的文章较少,本文期望通过对Data Fabric概念、能力、与其他概念的区分以及在工业界实践方案的介绍,使得大家能对该技术框架有一定的了解,并可以结合各自的情况给出具体的、可落地的Data Fabric解决方案。

 


Data Fabric是什么?

核心概念

如果要理解Data Fabric的概念,核心是要先理解什么是Fabric。Fabric是一种架构方法,该方法在各个节点之间提供完整的点对点连接,这些节点可以是数据源、存储、内部/外部应用程序、用户等任何访问数据或与数据相关的信息,如下图:

Data Fabric将现有的数据管理系统和应用程序编织在一起,提供可重用的服务,涵盖数据集成、访问、转换、建模、可视化、治理和交付。为了在所有这些不同的服务之间提供连接,Data Fabric包括了连接到数据生态系统工具的连接器。

业界定义

针对Data Fabric的定义,Forrester、Gartner以及数据解决方案TOP厂商等都给出了自己的定义和理解。

Forrester

Forrester提出了Big Data Fabric的概念,其建立在大数据分析、云计算以及Data Fabric等新技术之上,使用数据湖、Hadoop和Apache Spark等大数据技术自动、智能、安全地汇集不同的大数据源,并在大数据平台技术中进行处理,以提供统一、可信、全面的客户和业务数据视图。其目的不仅仅只是为了管理数据,更是为了从数据中提取有价值的信息,并将其转化成可用于实践的业务洞察[7]。

Forrester认为,Big Data Fabric的最佳之处在于它能够通过利用动态集成、分布式和多云架构、图形引擎、分布式和持久内存等方面的能力来快速交付应用,其专注于自动化流程集成、转换、准备、管理、安全、治理和编排,以快速启用分析和洞察力,实现业务成功[8]。

Gartner

Gartner将Data Fabric定义为包含数据和连接的集成层,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的的数据交付[9]。Gartner对Data Fabric的定义强调数据系统的设计、部署不应该受到平台选择的约束,散落各处的数据孤岛都能被统一发现和使用,并基于主动元数据进行建设和持续分析。

Data Fabric是数据管理(如DataOps)、集成技术、架构、跨平台部署、编排等能力的优化组合(包括不限于流数据集成、数据虚拟化、语义丰富、AI\ML辅助的主动元数据、知识图谱、图以及其他非关系数据存储等),来应对前面提到的数据管理的挑战。

Data Fabric通过人和机器的能力及时的对所需的数据进行访问(部分情况下实现完全自动化的数据访问和共享),同时在适当的情况下可以将数据进行整合。其不断的识别和连接来自不同应用程序的数据,以发现可用数据之间独特的、与业务相关的关系。与此同时,它还运用了AI算法对多个过程如异常数据清洗、任务调度等进行了全面的优化升级。

Gartner 在Data Fabric的概念介绍上,举了自动驾驶的例子,比较生动和形象。在驾驶汽车时有两种情况,一种是驾驶员主动、全神贯注于驾驶,汽车的自动干预功能较少或最少的介入,一种是驾驶员由于某些原因注意力不集中,有点儿走神,汽车则主动、及时的切换至半自动驾驶模式,进行必要的路线修正。这种场景形象的描述了Data Fabric的思想,首先以观察员的身份监控数据pipeline,并将监控的结果转化成效率更高的优化方案。当数据驱动和机器学习都能接受优化方案时,则会通过自动执行优化方案进行补充(而之前这部分功能消耗了太多的人工时间),从而让管理者可以专注于创新。即Data Fabric以最佳的方式将数据源头传送到目的地,其不断的监控数据pipeline,提出建议,并最终在速度更快、成本更低的情况下采用替代方案,就如自动驾驶汽车一样[9]。

TOP厂商

IBM认为,Data Fabric不是一个产品而是一种数据管理架构设计理念,是利用AI、机器学习和数据科学的功能,优化分布式数据的访问,并进行智能的管理和编排,向数据消费者提供自助服务,从而实现让用户及时的访问到正确的数据,提升数据的业务价值。

数据集成领域的领导者Talend认为,Data Fabric是由统一架构以及运行在其上服务或者技术而组成的、帮助企业管理数据的解决方案,其终极目标是极大化数据价值,加速数字变革。Talend对于Data Fabric的定义围绕最大化数据价值的思路,因此其认为Data Fabric除了集成能力之外,还需要建设数据质量管理、数据共享以及基于AI\ML的增强能力等,具备很强的科技性和前瞻性[11]。

集成分析领域的领导者TIBCO认为,Data Fabric是一种端到端数据集成和管理的解决方案,其由架构、数据管理和集成软件以及共享数据组成。Data Fabric通过管理数据来帮助组织解决复杂的数据问题和用例,为所有用户实时的提供统一、一致的用户体验和数据访问,在分布式数据环境中实现无摩擦的数据共享[12]。

Informatica认为,Data Fabric统一了跨环境的数据管理,依靠主动元数据、知识图谱、机器学习和其他元数据驱动功能(例如 Informatica 的CLAIRE AI 引擎支持的功能) 为数据集成、分析提出建议和智能决策。而且随着时间的推移,智能数据决策可以变得自主[13]。

总结归纳

在进行新技术架构进行推广应用时,相关领域的产品供应商会基于自己营销的目的,自行对该技术架构进行定义,并以此为卖点,推广自己的产品或者解决方案。这种情况在Data Fabric上也有明显的体现。从Google上搜索其定义时,可以看到各大供应商结合各自的产品特性对Data Fabric进行了不同的定义,且从Data Fabric带来收益的角度进行了讨论(如解决了集成复杂性、消除了数据孤岛、更容易从数据中获得洞察等)。供应商对新技术的定义都有一定的逻辑,且提供了理解Data Fabric的多种视角,很有价值,但从利益和收益角度来定义新技术,其实并没有从本质上进行阐述,因为获取收益可以通过其他的一种或多种技术来实现,基于这个角度去阐述新技术,会使得我们对于概念的理解更加模糊。

综合技术研究商以及各个数据解决方案供应商对Data Fabric的定义,我们认为Gartner对其定义较为接近本质(另外一方面,从Garner对Data Fabric定义逐年变化的信息中,可以看出业界对其理解越来越清晰),Data Fabric是一种数据架构思想(而非一组特定的工具),其通过提供一种统一的方法来管理异构数据工具链,其核心能够通过允许将可信数据从所有相关数据源、以灵活且业务可理解的方式交付给所有相关数据消费者,从而提供比传统数据管理更多的价值。

Data Fabric解决什么问题?

背景

“数据是企业数字化转型不可或缺的元素”,随着数字化的持续推进,数据源以及数据量不断增加,数据和应用孤岛的数量在过去几年中激增(为什么数据孤岛难以被消灭,可以参见[14],实际上数据孤岛的定义随着数据能力的深入,其定义会产生变化,扩展和泛化),再加上对数据的管理和运营投入度不够,缺少体系化的数据领域建设,从而产生了大量的暗数据。另外业务数据格式由原来的结构化数据为主,逐步改变为由混合、多样和不断变化的数据主导(结构化、半结构化、非结构化等),业务对于对实时或事件驱动的数据共享、业务化数据建模等需求不断增长。与此同时当我们使用数据时,还会遇到不同数据源、类型、结构、环境、平台等挑战。

什么是暗数据 

Gartner 将暗数据定义为组织在常规业务活动中收集、处理和存储的信息资产,但通常无法用于其他目的(例如分析、业务关系和直接货币化),类似于物理学中的暗物质。组织通常仅出于合规目的保留暗数据,存储和保护暗数据通常会产生比其价值更多的成本(有时甚至产生更大的风险)[15]。

问题

质量问题:55%的公司数据无法用于决策,47%新创建的数据记录至少有一个严重错误,数据质量差导致了巨额的财务损失。

安全问题:超过70%的用户可以访问他们不应该访问的数据。

成本问题:分析师80%的时间用于发现和准备数据,知识型员工将50%的时间浪费在寻找数据、发现和纠正错误以及确认不信任的数据来源上、数据科学家花60%的时间清理和组织数据。

价值问题:只有45%的结构化数据应用于业务,只有不到1%的非结构化数据被分析或使用,多达 68% 的数据没有被分析,多达 82% 的企业受到数据孤岛的阻碍[16]。

价值

Data Fabric的“真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度”[17],其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用AI能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,产生[18]:

  • 更快的适应业务。Data Fabric通过强大的查询、搜索以及学习能力可以回答意料之外的问题以及适应新的业务需求。其提供了一个动态的、可查询的数据能力,从多个数据来源进行数据的收集和分析,且可以充分复用数据模型(之前需要依赖创建新的数据模型和数据转移复制来支持新的业务需求),因此可以快速回答和解决新的问题和诉求。

  • 更好的洞察力。Data Fabric表达数据的业务意义(而不仅仅是通过数据改变现状),从而产生更好的业务洞察能力。其融合多种数据来源(如数据&元数据、司内&司外、业务内&业务外、云端&本地等),建设可扩展的、知识图谱驱动的数据模型,使得每个数据资产的所有上下文都可以机器可理解的形式进行使用和呈现,帮助决策者和算法做出更优的决策(更容易地获得高质量的数据,从而能更快和更精确地获得业务数据洞察),同时降低数据被滥用或者误解的可能性和风险。

  • 更有效的消除孤岛。Data Fabric通过数据联邦、数据虚拟化、语义丰富、基于AI的主动元数据、知识图谱以及图存储等数据技术,进行数据的连接、跨数据源的访问和数据交付,从而减少数据孤岛,尤其是数据虚拟化技术在计算层而非存储层进行数据连接,“在数据处理引擎和数据消费者之间架起了桥梁”[19],这种数据的连接方式还避免了不断产生新的数据孤岛。DAMA认为,消除孤岛和完全问责应该是任何数据项目的核心。

  • 更低的成本和实施风险。Data Fabric的实现思想是是对原有技术的重新组合(技术的本质是利用现象,对现有技术进行重新组合,并基于目的性的机会利基进行不断的自我进化[21]),而非全新的技术,通过支持组装式数据分析及其各种组件,对数据仓库、数据湖、数据计算、数据分析等现有的技术和能力进重新的组合和使用,并引入了新的方法、工具和平台。另外虚拟数据集成技术的应用,减少了数据复制、转移的次数和数量,降低了数据质量的风险和运维成本,也节省了计算和存储的开销。

  • 更高效的业务协作。Data Fabric是为协作、利用和链接现有资产和推动跨智能的数据管理项目而创建的。通过将现有的数据、数据能力、应用程序进行自动化关联、编排,并创建全域数据的单一视图(catalog),从而支持跨业务数据的即时有效访问,实现业务间有效协作, 创建和维护业务的竞争优势。

  • 更安全的业务。Data Fabric可以实现自动治理、数据保护和安全保障。其为所有的数据计划建立分布式的数据治理层,减少合规性和监管风险,以及在平台安全能力下防止数据泄露[22],并通过AI能力提升自动化水平(如根据监管文档中的语言和定义自动提取数据治理规则、发现和治理个人身份信息PII和关键数据元素),使得业务可以在几分钟内发现并应用数据治理规则,避免产生不良社会影响或高昂的罚款,确保所有的数据都能以合规的方式进行存储和使用[23],而这在当前社会背景下尤为重要。

场景

基于Data Fabric可以快速支撑各种数据产品,Forrester给出了Data Fabric的7个顶级应用场景[24]:

  • 客户360。Data Fabric 应用于客户智能,通过集成各种客户数据源,如浏览、点击、交易、广告、日志文件、CRM等,快速提供全面的客户画像视图。业务可以根据客户的喜好、厌恶、购买模式和过去的订单向他们追加销售和交叉销售新的产品或服务,并帮助业务了解客户满意度并预测客户流失,从而进行针对性的客户运营。

  • 业务360。增长和创新是业务不断保持活力的基础,尤其是在当前的环境下,粗放的增长方式以及基于点子的、非持续创新越来越不适用。Data Fabric通过集成全域数据,提供全面的业务画像视图,帮助业务发现或者创造机会,实现现有业务快速增长或者进入第二增长曲线。如从社交网络、合作商、日志、操作以及历史数据中提取和处理数据,以创建跨地区销售热图,从而确定哪个产品或者功能在哪个地区、对哪个人群最具吸引力。

  • 商业智能和仪表板。Data Fabric基于强大的灵活性,通过数据清理、执行聚合、汇总和转换等能力完成信息的聚合,并通过业务仪表板、指标和报告等方式呈现业务决策。Forrester 发现,部分大型企业正在使用Data Fabric支持支持特定行业的指标、财务管理和报告、资产和负债管理以及风险管理。

  • 数据合规及审计报告。国家对数据采集以及使用上的监管越来越严格,陆续出台了《数据安全法》、《个人信息保护法》、《关键信息基础设施安全保护条例》,在数据安全和合规性上,各个企业都感受到了越来越大的压力,这也意味着需要在数据合规及审计上投入更多的成本。Data Fabric可以显示信息的完整来源、类型、去向以及身份等信息, 帮助企业更快、更准确的进行数据安全的审计。

  • 数据字典。企业的数据存储在不同的数据库、数据仓库、数据平台中,数据类型包括了结构化、半结构化和非结构化数据,造成数据搜索不如Internet搜索那样简单,Data Fabric可以使得数据用户轻松搜索任何类型的数据,而无需知道其物理位置、组成结构或者其他元数据信息,搜索、查看、连接数据将会是未来广泛的数据消费场景。

  • 数据分析。基于Data Fabric,可以通过自动化、智能的方式轻松支持数据分析,并实现可用于行动的洞察力。如,治疗新疾病查看跨地域的一系列患者数据,并根据年龄和性别等参数确定合适的药物和剂量。同样,欺诈检测和风险管理受益于使用额外的数据和更长的时间范围,以近乎实时的方式更准确地识别欺诈。

  • 物联网分析。Data Fabric 通过自动化以及AI\ML等技术有效的存储、处理和访问来自传感器、设备和交换机的大量 IoT 数据,并与其他数据进行集成提供运营的洞察力。

收益

业务通过实施Data Fabric,可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值