AI数据管理产品介绍之Denodo

背景

约莫半年前,我将这些年的AI存储实践总结在<<我的AI存储实践及思考>>一文中。截止写本文,我司已有3套AI存储集群,总计50PB+规模,随着图片,视频大模型的持续突破,我们的数据量还在持续增加,预计今年还需要上线一套20~30PB的存储。然而,在运营当前多分区,多存储的AI集群过程中,我们遇到了一些难题,如:庞大的数据规模导致数据查找耗时,缺乏完整的数据治理导致数据追溯困难,多分区训练带来沉重的数据移动税,多分区数据冗余及不一致等。

概述

带着上面提到的问题,我阅读了不少博文,也正好看到国外有几款还不错的AI存储解决方案,如: Denodo,VAST Data, HammerSpace,它们的产品各有侧重点,都为解决上面提到的问题提供了自己的方案,还提供了更多的产品能力,如:数据分类,数据治理, 并融入了最新的AI元素。本篇文章,我给大家介绍Denodo的产品。

在Denodo公开的材料中,关于产品架构和技术细节方面的内容很少,提到更多的是产品理念、产品能力、产品解决方案。Denodo是一家老牌的数据管理公司,它的产品是Denodo平台,提出的核心概念是逻辑数据管理,将分散在各系统的数据组织起来,形成一个逻辑访问层,进行集中式数据管理,提供统一的数据访问入口,并为用户提供自服务数据视图。实现上述概念的核心技术是数据虚拟化,这是一种利用元数据来进行数据集成和管理的技术,通过建立统一的逻辑访问层能够简化数据集成、统一数据安全、加快数据交付,实现对多重异构数据的快速访问。Denodo提供了众多的解决方案案例,包括数据目录(Data Catalog),数据网格(Data Mesh),数据编织(Data Fabric)等多种技术方案。

下面的内容是对Denodo官网材料的摘抄和翻译,分享给大家。更多的内容,请点击Denodo链接。

Denodo

针对企业在数据管理过程中面临的数据规模庞大、数据多元、数据孤岛,数据治理复杂,数据获取耗时等挑战,Denodo提出的解决办法是逻辑数据管理(Logical Data Management),概念上,它是根据数据间的逻辑关系,含义以及上下文来组织和管理数据的过程,它聚焦于以一种业务及技术人员都能理解且有丰富含义的方式来定义数据元素,数据关系和数据属性。它的目标是创建一个让所有利益相关方易于理解和维护的概念模型,这个模型不仅包括数据实体、数据属性及数据关系的定义,还包括业务规则和数据质量标准的定义。

采用逻辑数据管理,企业业务将获益:

  • 统一的数据访问入口:中心化的逻辑层实现对异构数据的快速访问
  • 友好的数据视图:通过逻辑数据层,创建业务友好、自服务的数据视图
  • 提升数据使用效率:消费者能快速的找到、访问、集成及分享数据,项目专家加入数据建模过程、减少数据就绪的周期

企业IT将获益:

  • 实时数据:逻辑数据层允许所有利益相关方在任何时候,以喜欢的格式,按需访问最新数据
  • 减少数据扩散和冗余:逻辑数据层消除了不必要的数据复制
  • 更快的数据实现:逻辑数据层加快新数据集的供给
  • 中心化的数据安全及治理:统一的访问层使得对用户跨数据集访问执行强制安全性和数据管理控制变得容易

Denodo认为实现逻辑数据管理的核心技术是数据虚拟化,数据虚拟化是一种利用元数据来进行数据集成和管理的技术。数据虚拟化建立一个统一的数据访问层,用于查找和使用组织内的所有数据,这个统一的数据访问层由各物理数据源(如:数据仓库、数据湖、事务型和分析型数据库、云和企业应用数据服务、APIs和文件)的逻辑/虚拟视图组成。通过这个中心化逻辑层,数据虚拟化能够实现对多重异构数据的快速访问。

数据虚拟化的关键能力包括:

  • 逻辑数据抽象:为企业所有的数据资产建立抽象层,将其与源系统解耦
  • 智能查询加速:由一流的多数据源查询优化器、下一代MPP以及AI驱动的查询加速共同赋予的高性能数据访问
  • 高级语义:数据目录,通过AI驱动的推荐和协作功能简化数据发现,这些功能使用了适应数据消费者需求的业务语义
  • 通用连接及数据服务:易于连接各种数据源,易于通过标准接口共享,如:SQL,JSON,REST和Graphic APIs
  • 灵活的数据集成:从实时联合,到选择性具体化(缓冲,聚合感知摘要),再到完全复制(ETL、ELT、微批处理),还有流式处理
  • 通用的数据安全和治理:中心化的应用治理和细粒度安全策略应用到任何数据、任何访问方法,完整的数据活动审计日志

Denodo Platform

Denodo的产品是Denodo Platform,由数据虚拟化技术提供支持,是一套集逻辑数据集成,数据管理和数据交付的解决方案,中心化的数据访问层,使得用户能够即时、高效的查找,查询,集成和安全的共享数据。这使组织能够获取及时、可信、集成的数据集,以更快的进行分析和明智的业务决策。
数据虚拟化
数据虚拟化为Denodo Platform提供四个方面的能力:

  • 逻辑数据层:数据虚拟化无需复制,就地为数据访问,管理和交付提供逻辑/虚拟方法
  • 数据集成:数据虚拟化不管数据格式,数据位置和延迟,将企业内各孤岛数据集成在一起
  • 数据管理:数据虚拟化采用通用的语义模型来管理相关数据,提供增强的元数据和AI/ML功能,支持重要的数据治理
  • 数据交付:数据虚拟化利用BI和数据科学工具、强大的数据目录和APIs,实现实时的数据交付和民主化

Denodo Platform由数据虚拟化提供支持, 它提供这些能力:通用的语义层将数据更快的暴露给业务,用于语义搜索和企业范围数据治理的动态数据目录,由ML支持的行业领先的查询加速,多云/混合云场景的自动化基础设施管理,用于自助分析的嵌入式数据准备功能,更快的获得洞察力,更好的隐私和合规性,更高的数据管理流程自动化和避免产商锁定。

Denodo Platform位于传统的数据源之上,允许访问多种不同的数据源,同时对用户显示为一个逻辑数据源。下面是其架构:
Denodo架构

Denodo Solution

在Denodo的解决方案页面,按典型案例,技术,行业提供了众多的解决方案案例,我选取了技术分类中的其中三个,这三个方案对解决文章开头提到的我们在运营过程中遇到的问题很有意义。

数据目录

数据目录是企业数据资产的集中式清单,提供详细的元数据,允许用户便捷的发现、理解和访问数据。它是一个搜索工具可以促进数据的访问性、共享和协作。

Denodo将数据目录功能和集中式数据交付层的强大能力结合,形成一个精心策划的、及时的、上下文相关的、及(包含)可重用的信息资产和数据服务的动态目录,为用户提供统一的数据资产和服务视图。它使用户能够搜索相关数据,直接访问数据,将数据共享给团队成员,或者导出到BI环境。Denodo平台集成的逻辑数据访问层持续的执行安全及治理策略,确保整个组织内获得简化的数据交付体验。

Denodo数据目录无缝集成了数据治理工具,如:Collibra,允许企业既可以使用已有的数据治理工具,也可以使用Denodo平台进行集中式数据治理。Denodo数据目录支持与数据治理工具间的双向数据共享,支持数据管理员用喜欢的工具对数据属性打标签和分类,并立即同步给Denodo数据目录,以实现强有力的策略执行。这些特征使得企业能够建立由Denodo平台的语义层,集中式数据交付功能和
策略执行支持的公司访问的数据治理平台。

数据网格(Data Mesh)

数据网格是一种新的,去中心化的数据架构,试图用多数据域(每个数据域由组织内不同的部门管理)来解决单一、中心化的数据源架构中遇到的问题(中心化数据团队可能无法理解各部门的数据需求,中心化平台可能无法满足各部门的需求,中心化平台天生死板、数据交付缓慢)。在数据网格中,数据域并不是孤岛,而是由被完全配置的权威控制中心以完全受管控的方式在组织内发放数据。在数据网格的世界视角中一个关键概念是数据即产品,它由数据域交付给企业范围内的数据消费者。通过数据产品化,数据被打包,以无缝自服务的方式提供(给数据消费者)。

数据网格要能像上面描述的那样工作,它需要一个数据交付系统。数据虚拟化是数据网格的完美契合。数据虚拟化能够实时访问数据,而不需要移动数据,并为数据网格提供如下强大的能力:

  • 数据虚拟化只会集中那些用于访问不同来源数据的关键元数据
  • 允许企业从单个控制点跨所有的数据域实施治理和安全协议
  • 允许企业在各数据源之上实现高度定制的语义模型,有效地服务各数据域而不需要修改底层数据
  • 语义模型能够很容易的修改,部署,重新设计,而不需要修改底层数据
  • 数据虚拟化支持功能齐全的数据目录,不仅能枚举可用数据,还能以自服务方式提供对数据的现成实时访问

数据编织(Data Fabric)

数据编织是一种灵活、可重复使用的,强大的数据管理方法,是任何数字转型、数据治理和高级分析计划的关键。逻辑数据编织,由数据虚拟化支持,允许企业集成、管理并实时的将分布式数据交付给用户,而不需要关注数据的位置,格式及延迟。

逻辑数据编织是一种可组合式的架构,它的必要组件如数据集成层,数据目录,AI/ML引擎,语义层可以是不同工具集的组合。由数据虚拟化作为底层数据集成方法的逻辑数据编织,避免了数据拷贝,是为跨混合云和多云提供实时、聚合数据视图的关键,同时降低成本,加快洞察时间,帮助企业建立中心化的数据隐私,安全和监管。

  • 19
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值