数仓学习笔记(13)——元数据管理(Atlas)

目录

一、Atlas入门

1、Atlas概述

2、Atlas架构原理

二、Atlas安装

1、安装环境准备

2、Atlas启动

三、Atlas使用

1、Hive元数据初次导入

2、Hive元数据增量同步

2.1 全流程调度

2.2 查看血缘依赖

四、拓展内容

1、Atlas源码编译

1.1 编译Atals源码

1.2 Atlas内存配置

2、配置用户名密码


一、Atlas入门

1、Atlas概述

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。

Atlas的具体功能如下:

元数据分类

支持对元数据进行分类管理,例如个人信息,敏感信息等

元数据检索

可按照元数据类型、元数据分类进行检索,支持全文检索

血缘依赖

支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等

1)表与表之间的血缘依赖

 2)字段与字段之间的血缘依赖

2、Atlas架构原理

二、Atlas安装

1、安装环境准备

 各种安装纪配置详情见视频和文档 

2、Atlas启动

 

三、Atlas使用

Atlas的使用相对简单,其主要工作是同步各服务(主要是Hive)的元数据,并构建元数据实体之间的关联关系,然后对所存储的元数据建立索引,最终未用户提供数据血缘查看及元数据检索等功能。

Atlas在安装之初,需手动执行一次元数据的全量导入,后续Atlas便会利用Hive Hook增量同步Hive的元数据。

1、Hive元数据初次导入

Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入。

 

2、Hive元数据增量同步

Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系。

2.1 全流程调度

为查看血缘关系效果,此处使用Azkaban将数仓的全流程调度一次。

 

2.2 查看血缘依赖

此时在通过Atlas查看Hive元数据,即可发现血缘依赖

四、拓展内容

1、Atlas源码编译

1.1 编译Atals源码

 

1.2 Atlas内存配置

 

2、配置用户名密码

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值