Apache Atlas为具有数据密集型平台的公司提供基本的元数据管理和数据治理功能,主要为在 Hadoop 集群中使用而设计,但也可与 Hadoop 生态系统之外的工具和进程交换元数据以实现集成。它具有灵活的类型系统来定义和管理元数据对象的模型,能自动对数据资产和数据沿袭信息进行编目,并与 Apache Ranger 数据安全框架集成实现访问控制和数据屏蔽等功能。
Apache Atlas 是一个开源的企业级数据治理和元数据管理工具。
一、主要功能
- 元数据管理
- 对企业中的各种数据资产进行全面的元数据采集、存储和管理。包括数据库表结构、字段信息、数据血缘关系、数据的业务含义等。例如,当企业有多个数据库系统和大数据平台时,Atlas 可以自动发现和整合这些数据源的元数据,为数据管理员和数据使用者提供统一的视图。
- 支持多种数据源,如 Hive、HBase、Sqoop、Kafka 等,能够适应不同的数据存储和处理架构。
- 数据血缘追踪
- 清晰地展示数据从源头到最终应用的整个流向过程。如果某个数据分析结果出现问题,可以通过数据血缘快速定位问题数据的来源,便于进行问题排查和数据质量改进。比如,一个数据分析报告中的数据出现错误,通过 Atlas 可以追溯到是哪个数据源的数据出现了问题,以及在数据处理过程中的哪个环节出现了异常。
- 有助于企业了解数据的来龙去脉,更好地管理和优化数据流程。
- 数据分类和标签
- 对数据进行分类和打标签,以便更好地组织和检索数据。例如ÿ