HashData云数仓元数据服务设计及实现

最新推荐文章于 2024-01-26 16:11:50 发布

酷克数据HashData

最新推荐文章于 2024-01-26 16:11:50 发布

阅读量427

点赞数

分类专栏：产品动态文章标签：数据库大数据服务器

本文链接：https://blog.csdn.net/m0_54979897/article/details/126155119

版权

产品动态专栏收录该内容

21 篇文章 2 订阅

订阅专栏

在这里插入图片描述
元数据是数据库系统中描述对象的数据，相当于数据使用的“说明书”，是决定数据库性能的重要抓手。

在大数据时代，海量的数据规模和复杂的数据类型，意味着对元数据处理提出了更高的要求。

HashData云数仓作为一款面向多种数据分析场景的高性能分析型数据库，采用元数据、计算和存储三者分离的架构，能够更好地适应跨集群、跨中心以及跨云中心的数据访问。

在提供高性能数据仓库业务的同时，HashData拥有更好的资源配置能力，并且通过元数据服务的分离和共享，让所有的数据集群系统保证数据的一致性。
传统MPP数据库使用“痛点”
传统的Greenplum、Teradata等MPP 架构的数据库，存储、计算是紧耦合的，数据存储在本地系统，存储能力的扩展通过增加集群节点实现，这样会导致计算资源严重浪费，无法满足业务的发展。

在使用过程中，随着数据量的增长，传统MPP架构数据库每个集群的数据都保存在计算节点本地磁盘，集群之间的数据无法做到有效共享，形成“数据孤岛”现象。同时，大量数据拷贝操作，造成数据严重冗余。

当出现用户的计算需求大于单套节点的容量限制时，用户往往需要被迫去采用集群切割，然后再通过一些其他的技术进行同步。这样做一方面会增加流量负载，同时还会引起元数据的不一致，加剧“数据孤岛”现象。

传统数据库在进行动态扩容、缩容、升级、故障处理等操作时，需要把用户数据重新做一个resharding。但对分布式系统来说，元数据都是存储在本地的，所以任何一个节点要恢复或者扩容，都要拷贝一份元数据，会大幅增加停机时间。

此外，传统MPP 架构数据库，动辄几百台甚至上千台服务器的规模，系统运维工作量大。
在这里插入图片描述
HashData云数仓：基于共享存储的元数据服务
HashData 云数仓元数据设计初衷，是希望能够为用户提供统一的共享存储解决方案。

从整体架构来看，HashData元数据集群为计算集群提供管理服务，同时用户可以通过云管平台实现元数据集群操作。

依托对象存储服务，HashData 可以更加高效地在用户的核心的数据上面提供计算服务，能够有效提高MPP 架构集群的并发能力。

同时，相比传统MPP 架构，HashData 从物理层面直接实现资源隔离，可以更好地帮助用户把资源和应用类型进行互补。

为了做到在共享存储环境下，提供多套不同的计算资源的隔离，就需要提供统一的元数据的管理，这样可以方便不同的集群独立、准确、并发地去操作对象存储上的共享数据。

在这种情况下，HashData 云数仓对元数据进行了大量优化，包括存储服务、调度接入、云管平台等。

hashData元数据服务分成三个层次：一层是调度层，一层是无状态服务。还有一层是元数据持久层。
在这里插入图片描述
调度层主要解决两类问题。第一是帮助计算集群去找到元数据节点。调度层需要把元数据节点以及它的角色发布到ETCD ，然后计算集群通过订阅 ETCD 上这些角色位置的变更信息，它们可以自动地去找到更新的 catalog，为不同的角色提供了不同的服务。