目录
一、Atlas入门
1、Atlas概述
Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。
Atlas的具体功能如下:
元数据分类 | 支持对元数据进行分类管理,例如个人信息,敏感信息等 |
元数据检索 | 可按照元数据类型、元数据分类进行检索,支持全文检索 |
血缘依赖 | 支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等 |
1)表与表之间的血缘依赖
2)字段与字段之间的血缘依赖
2、Atlas架构原理
二、Atlas安装
1、安装环境准备
各种安装纪配置详情见视频和文档
2、Atlas启动
三、Atlas使用
Atlas的使用相对简单,其主要工作是同步各服务(主要是Hive)的元数据,并构建元数据实体之间的关联关系,然后对所存储的元数据建立索引,最终未用户提供数据血缘查看及元数据检索等功能。
Atlas在安装之初,需手动执行一次元数据的全量导入,后续Atlas便会利用Hive Hook增量同步Hive的元数据。
1、Hive元数据初次导入
Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入。
2、Hive元数据增量同步
Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系。
2.1 全流程调度
为查看血缘关系效果,此处使用Azkaban将数仓的全流程调度一次。
2.2 查看血缘依赖
此时在通过Atlas查看Hive元数据,即可发现血缘依赖
四、拓展内容
1、Atlas源码编译
1.1 编译Atals源码
1.2 Atlas内存配置
2、配置用户名密码