Apache Atlas数据治理和元数据框架

最新推荐文章于 2025-04-17 10:27:03 发布

lightupworld

最新推荐文章于 2025-04-17 10:27:03 发布

阅读量1.3k

点赞数

分类专栏： # Atlas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lightupworld/article/details/108501201

版权

Apache Atlas是一个可扩展的核心治理服务集合，用于满足Hadoop的合规性需求，提供元数据管理和治理功能。它具备元数据类型与实例、分类、血缘、搜索/发现和安全等功能。Atlas的架构包括核心层、集成层、元数据源层、应用层和存储层，支持Hive等元数据源集成，并可通过REST API和消息传递接口进行交互。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、概述

Atlas 是一个可伸缩和可扩展的核心基础治理服务集合，使企业能够有效地和高效地满足 Hadoop 中的合规性要求，并允许与整个企业数据生态系统的集成。
Apache Atlas为组织提供开放式元数据管理和治理功能，用以构建其数据资产目录，对这些资产进行分类和管理，并为数据科学家，数据分析师和数据治理团队提供围绕这些数据资产的协作功能。

二、特点

1.元数据类型 & 实例(Metadata types & instances)

各种Hadoop和非Hadoop元数据的预定义类型
能够为要管理的元数据定义新类型
类型可以具有原始属性，复杂属性，对象引用;可以继承其他类型
类型(type)实例（称为实体entities）捕获元数据对象详细信息及其关系
可以更轻松地进行集成用于处理类型和实例的REST API

2.分类(Classification)

能够动态创建分类 - 如PII，EXPIRES_ON，DATA_QUALITY，SENSITIVE。
分类可以包含属性 - 例如EXPIRES_ON分类中的expiry_date属性。
实体(entities)可以与多个分类(classifications)相关联，从而实现更轻松的发现和安全实施。
通过血缘传播分类 - 自动确保分类在进行各种处理时遵循数据。

3. 血缘(Lineage)

直观的UI，用于在数据流转时，通过各种流程时查看数据。
用于访问和更新血缘的REST API。

4.搜索/发现(Search/Discovery)

直观的UI，按类型(type)，分类(classification)，属性值(attribute)或自由文本搜索实体。
丰富的REST API，可按复杂条件进行搜索。
SQL搜索实体的查询语言 - 域特定语言（DSL）。

5.安全和数据屏蔽

用于元数据访问的细粒度安全性，实现对实体实例的访问控制以及添加/更新/删除分类等操作。
与Apache Ranger集成可根据与Apache Atlas中的实体相关的分类对数据访问进行授权/数据屏蔽。

三、高级架构

1.Atlas的架构

在这里插入图片描述

2.核心层(Core)

Atlas核心包含以下组件：

类型系统(Type System): Atlas允许用户为他们想要管理的元数据对象定义模型。该模型由称为“类型”的定义组成。称为“实体”的“类型”实例

最低0.47元/天解锁文章

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。