元数据管理gravitino学习

最新推荐文章于 2024-12-17 12:00:00 发布

march of Time

最新推荐文章于 2024-12-17 12:00:00 发布

阅读量1.2k

点赞数 16

分类专栏：大数据文章标签：学习 gravitino hive

本文链接：https://blog.csdn.net/qq_41358574/article/details/141353279

版权

大数据专栏收录该内容

7 篇文章

订阅专栏

元数据管理的组成有几个部分：Metaservice(Gravitino)、Luoshu（amoro)、Hive Metastore，其中gravitino是数据管理模块实现元数据统一管理的核心。前面有提到hive metastore可以存储hive的库表元数据信息，可以用于存储关于hive表、列、分区等对象的信息，hive metastore通常使用关系型数据库比如mysql、postgreSQL,但是hive metastore本身没有任何治理能力，并且它的元数据模型完全是关系型的数据库模型，对于像Message、topic、文件这类半结构化、非结构化的数据基本是不匹配的。业界一直希望统一元数据，从而实现多产品间的一致体验：无论是数据开发、数据消费还是数据治理，所有用户都能基于一套元数据体系，可以在多个数据源和计算引擎之间建立联系，使用统一的服务来公开这些元数据。在这种情况下，Gravitino 非常有用。因为它提供了一个统一的元数据湖，标准化了数据目录操作，并统一了所有元数据管理和治理。它可以为多种数据源提供统一的元数据视图，管理不同来源、类型和区域的元数据，支持 Hive，Iceberg，MySQL，Fileset，Messaging 等类型的数据目录。

在数据管理中，采用gravitino来统一元数据视图，不再需要直接与hive metastore进行交互，进行更高效和统一的元数据管理。gravitino支持不同的目录来管理不同来源的元数据，包括iceberg、hive、mysql、kafka等。

“元数据湖”：在gravitino出现之前，业界还没有一个统一的“元数据湖”的组件，不同于数据湖，gravitino提出了“元数据湖”的概念，通过提供一个丰富的数据目录，Gravitino使得数据湖中的资源更加易于导航和理解。有个“元数据湖”之后，不再需要中心化地管理“数据”，而是中心化管理“元数据”。因为数据往往是难以汇集到一起的，而元数据更容易方便汇集到一起。

gravitino是什么：Gravitino 是一个高性能、地理分布、联合的元数据湖。它直接管理不同来源、类型和地区的元数据。它还为用户提供数据和 AI 资产的统一元数据访问。Gravitino 为用户提供了管理和治理元数据的 API，包括标准的元数据创建、更新和删除操作。同时，它还提供了以统一方式治理元数据的能力，包括访问控制、发现等。

同时gravitino支持多云上部署，不同云之间的gravitino可以进行数据共享，在每一个gravitino节点上都可以管理底层异构数据源，包括数据湖和数据仓库、数据库的数据源等，核心特点包括：

1.在元数据意义上支持SSOT（单一可信数据源）：确保不同体系之间数据都是相同，去除冗余数据

2.统一管理AI+Data元数据：对于AI和data都提供统一catalog去管理二者元数据

3.地理分布架构：支持数据不同物理分布，这样数据不需要搬迁到一个地方

4.统一安全管理：对数据统一权限管理等

5.多引擎支持：不仅支持数据引擎，如 Trino、spark、Apache Flink（开发中），还支持 AI/ML 框架，如 Tensorflow、PyTorch和

如下图：
在这里插入图片描述
概括言之，gravitino主要有两个作用：

（1）为多种数据源提供统一的元数据视图

（2）所有数据源进行统一权限管控。

gravitino的层级结构:
在这里插入图片描述

Metalake：元数据的顶层容器。通常一个组有一个metalake来管理其中所有的元数据。每个metalake对外暴露一个三级命名空间（catalog.schema.table）来组织数据。

catalog：catalog是来自特定元数据源的元数据的集合。每个目录都有一个相关的连接器来连接到特定的元数据源。在数据湖中，数据目录作为逻辑结构，可以组织、分类数据资产。

Schema：Schema 相当于数据库，Schema 仅存在于支持关系元数据源的特定目录中，例如 Apache Hive、MySQL、PostgreSQL 等。

Table表：支持关系元数据源的目录的对象层次结构中的最低级别。可以在目录中的特定架构中创建表。

Gravitino对外暴露 RESTful的 API接口，然后将用户的各种权限设置的请求，通过自身的逻辑以及模型的转换，通过插件透传给下游的各种不同的数据生态，从而达到让 Gravitino成为权限入口的效果。

用户可以使用三级坐标：catalog.schema.entity 来描述所有数据，并用于数据集成、联合查询等。

gravitino也提供了trino connector和spark connector，在 Trino 中配置 Gravitino connector后，Trino 可以自动从 Gravitino 加载目录元数据，让用户在 Trino 中直接访问这些目录。与 Gravitino 集成后，Trino 可以操作所有 Gravitino 数据，而无需额外配置。

用gravitino创建目录的实例：

// Assuming you have just created a metalake named `metalake`
GravitinoClient gravitinoClient = GravitinoClient
    .builder("http://127.0.0.1:8090")
    .withMetalake("metalake")
    .build();

Map<String, String> hiveProperties = ImmutableMap.<String, String>builder()
        // You should replace the following with your own hive metastore uris that Gravitino can access
        .put("metastore.uris", "thrift://localhost:9083")
        .build();

Catalog catalog = gravitinoClient.createCatalog(
    NameIdentifier.of("metalake", "catalog"),
    Type.RELATIONAL,
    "hive", // provider, We support hive, jdbc-mysql, jdbc-postgresql, lakehouse-iceberg, etc.
    "This is a hive catalog",
    hiveProperties); // Please change the properties according to the value of the provider.
// ...