Atlas学习笔记

Apache Atlas是一款可伸缩的元数据管理工具,旨在构建统一的元数据管理平台,支持元数据交换、数据血缘、高可用性等功能。本文详细介绍了Atlas的整体架构,包括元数据源、类型系统、图形引擎、词汇表、分类传播和高可用性等方面,展示了其在大数据治理中的核心作用。
摘要由CSDN通过智能技术生成

背景介绍

随着网络与信息科技的飞速发展,数据的量级在不断增长,迎来大数据时代。这么多的数据资产应当如何管理,如何从海量数据中找到分析所需要的合适数据集,大数据治理应运而生。元数据(metadata)是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。因此元数据管理是数据治理中的核心部分,Apache Atlas是一个可伸缩和可扩展的元数据管理工具。它的设计目的为了与其他大数据系统组件交换元数据,改变以往标准各异、各自为战的元数据管理方式,构建统一的元数据库与元数据定义标准,并目与Hadoop生态系统中各类组件相集成,建立统一、高效且可扩展的元数据管理平台。

Apache Atlas提供了大数据治理中可扩展的核心治理服务,具体包括:
1)元数据交换:允许从当前的组件导入已存在的元数据或模型到Atlas中,也允许导出元数据到下游系统中。
2)数据血缘:Atlas在平台层次上,针对Hadoop组件抓取数据血统信息,并根据数据血缘间的关系构建数据的生命周期,对数据血缘的追溯达到了字段级别。
3)数据生命周期可视化:通过Web服务将数据生命周期以可视化的方式展现。

4)快速数据建模:支持各种元数据类型,且Atlas内置的类型系统允许通过继承已有类型的方式来自定义元数据结构,以满足新的需求。
5)丰富的API:提供了目前比较流行目灵活的方式,能够对Atlas服务,HDP(Horton
work DataPlatform)组件、UI及外部组件进行访问。

1、整体架构简介

Metadata Sources(元数据源)

目前,Atlas支持从以下来源提取和管理元数据:HBase 、Hive、Sqoop、Storm、Kafka。Atlas中定义了原生的元数据模型来表示这些组件的各种对象;Atlas中提供了相应的模块从这些组件中导入元数据对象。

Apps(应用)

Admin UI(Atlas管理界面):作为其中的一个应用是基于WebUI方式的,它允许管理员与数据科学家发现元数据信息和添加元数据注解。在诸多主要的功能中,Atlas提供了搜索接口与类SQL语言,这些特性在Atlas的架构中扮演着十分重要的角色,它们能够被用于查询Atlas中的元数据类型和对象。另外,该管理界面使用Atlas的Rest API来构建它的功能。
Ranger Tag Based Policies(基于各种策略的标签验证权限管理模块):对于整合了诸多Hadoop组件的Hadoop生态系统, ApacheRanger是一个高级安全解决方案。通过与Atlas整合,Ranger允许管理员自定义元数据的安全驱动策略来对大数据进行高效的治理。当元数据库中的元数据发生改变时Atlas会以发送事件的方式通知Ranger。
Business Taxonomy(商业业务分类):从各类元数据源中导入Atlas的元数据以最原始的形式存储在元数据库中,这些元数据还保留了许多技术特征。为了加强挖掘与治理大数据的能力,Atlas提供了一个商业业务分类接口,允许用户对其商业领域内的各种术语建立一个具有层次结构的术语集合,并将它们整合成能够被Atlas管理的元数据实体。商业业务分类这一应用,目前是作为Atlas管理界面的一部分而存在的,它通过Rest API来与Atlas集成。

Integration(集成交互模块)

Atlas提供了两种方式供用户管理元数据。

  1. API:Atlas的所有功能都可以通过Rest API的方式暴露给用户,以便用户可以对Atlas中的类型和实体进行创建、更新和删除等操作。同时,Rest API也是Atlas中查询类型和实体的主要机制。
  2. Messaging消息系统:除了Rest API,用户可以选择基于Kafka的消息接口来与Atlas集成。这种方式有利干与Atlas进行元数据对象的交换,也有利于其他应用对Atlas中的元数据事件进行获取和消费。当用户需要以一种松耦合的方式来集成Atlas时,消息系统接口变得尤为重要,因为它能提供更好的可扩展性和稳定性。在Atlas中,使用Kafka作为消息通知的服务器,从而使得上游不同组件的钩子(HOOK)能够与元数据事件的下游消费者进行交互。这些事件被Atlas的钩子所创建,并冠以不同的Kafka主题。

Core(核心模块)

在Atlas的架构中,其核心组成部分为其核心功能提供了最为重要的支持。

  1. TypeSystem类型系统:ApacheAtlas允许用户根据自身需求来对元数据对象进行建模。这样的模型由被称为“类型”(Type)的概念组成,类型的实例被称为“实体”(Entity),实体能够呈现出元数据管理系统中实际元数据对象的具体内容。同时,Atlas中的这一建模特点允许系统管理员定义具有技术性质的元数据和具有业务性质的元数据,这也使得在Atlas的两个特性之间定义丰富的关系成为可能。<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值