组织多年来的一贯做法是将所有数据整合到单一位置,例如数据仓库或近年来兴起的数据湖。但是,集中式数据基础架构的一些弊端已初现端倪:
1. 集中式数据团队对数据的了解程度无法与只专注于全部数据中特定部分的具体业务团队相提并论。
2. 集中式数据基础架构缺乏灵活性,难以满足组织内所有不同部门的需求。
3. 集中多个数据源的数据不仅会耗费大量时间,而且还会导致数据使用者无法按需访问数据。
为了克服这些问题,技术顾问 Zhamak Dehghani 提议采用一种名为“数据网格”的分散式数据基础架构。
在数据网格配置中,组织内的不同部门或群组将拥有单独的“数据域”,由中央自助式数据平台提供支持,并按照一套总体标准进行管理,以确保互操作性。每个数据域都将提供“数据产品”,设计上方便目标受众使用,且符合组织全局标准。
值得一提的是,尽管所有权分散,但预配和治理保持集中。此架构具有直观意义,并有望克服完全集中式基础架构的局限性,但组织如何在获得中央数据平台支持与保持域的独立性之间实现一种微妙的平衡呢?
进入数据虚拟化
Denodo数据虚拟化作为一种数据集成技术,堪称实现数据网格的完美选择。与提取、转换和加载 (ETL) 流程以及其他面向批处理的数据集成方法不同,数据虚拟化让数据使用者无需先将数据复制到集中式存储库即可访问数据。因此,数据虚拟化在本质上可以被视为一种“分散式”数据集成策略。
数据虚拟化是一个建立在组织内不同数据源之上的企业范围的层。要在不同数据源之间进行查询时,数据使用者只需查询数据虚拟化层,然后该层便会检索所需数据,让使用者不必受困于访问的复杂性。