Hadoop生态系统的元数据管理和数据治理平台--Atlas 学习

最新推荐文章于 2024-07-01 08:30:00 发布

enjoy编程

最新推荐文章于 2024-07-01 08:30:00 发布

阅读量1k

点赞数 1

分类专栏：大数据文章标签： hadoop Altas 元数据管理数据治理数据血缘

本文链接：https://blog.csdn.net/penriver/article/details/120511083

版权

28 篇文章 8 订阅

订阅专栏

最近在规划数据治理的功能，所以研究了一下Apache Altas

Atlas

Atlas 是apache下的大数据的元数据管理和数据治理平台，是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。

支持对hive、storm、kafka、hbase、sqoop等进行元数据管理以及以图库的形式展示数据的血缘关系。

因其支持横向海量扩展、良好的集成能力和开源的特点，国内大部分厂家选择使用Atlas或对其进行二次开发

不支持spark、flink
在这里插入图片描述

整体架构实现如下图所示：
在这里插入图片描述

Atlas 支持与许多元数据源的集成，将来还会添加更多集成。目前，Atlas 支持从以下数据源获取和管理元数据：

Hive：通过hive bridge, Atlas可以接入Hive的元数据，包括hive_db/hive_table/hive_column/hive_process
Sqoop：通过sqoop hook，atlas可以接入关系型数据库的元数据，包括sqoop_operation_type/sqoop_dbstore_usage/sqoop_process/sqoop_dbdatastore
Falcon：通过falcon bridge，atlas可以接入Falcon的元数据，包括falcon_cluster/falcon_feed/falcon_feed_creation/falcon_feed_replication/ falcon_process
Storm：通过storm hook，atlas可以接入流式处理的元数据，包括storm_topology/storm_spout/storm_bolt
HBase: 通过HBasebridge，atlas可以接入流式处理的元数据，包括hbase_namespace/hbase_table/hbase_column_family

Atlas集成大数据组件的元数据源需要实现以下两点：

首先，需要基于atlas的类型系统定义能够表达大数据组件元数据对象的元数据模型(例如Hive的元数据模型实现在org.apache.atlas.hive.model.HiveDataModelGenerator)；
然后，需要提供hook组件去从大数据组件的元数据源中提取元数据对象，实时侦听元数据的变更并反馈给atlas；