Datahub平台由下图所示的组件组成。
元数据存储
元数据存储负责存储构成元数据图的实体和方面。这包括 公开用于引入元数据、按主键提取元数据、搜索实体和提取 实体。它由一个Spring Java服务组成,托管一组 Rest.li API端点,以及 MySQL,Elasticsearch和Kafka用于主存储和索引。
元数据模型
元数据模型是定义构成元数据图的实体和方面的形状以及它们之间的关系的模式。它们被定义 使用 PDL,一种在形式上与 Protobuf 非常相似的建模语言,同时序列化为 JSON。实体表示特定类别的元数据 数据集、仪表板、数据管道等资产。实体的每个实例都由称为 .方面表示附加的相关数据包 到实体的实例,例如其描述、标记等。在此处查看当前支持的实体集。
元数据摄入框架
摄入框架是一个模块化、可扩展的 Python 库,用于从外部源系统(例如 Snowflake,Looker,MySQL,Kafka),将其转换为DataHub的元数据模型,并通过以下方法将其写入DataHub。 Kafka 或直接使用元数据存储 Rest API。数据中心支持广泛的源连接器列表可供选择,以及 一系列功能,包括架构提取、表和列分析、使用情况信息提取等。
摄入框架入门非常简单:只需定义 YAML 文件并执行命令。
GraphQL API<