一、Atlas简介
1.Atlas概述
Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能,它为Hadoop集群提供了包括 数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。
2. Atlas框架原理
2.1 Core层
Atlas核心包含以下组件:
2.1.1 类型系统(Type System): 用户为他们想要管理的元数据对象定义模型。Type System称为“实体”的“类型”实例,表示受管理的实际元数据对象。
2.1.2 图形引擎(Graph Engine): Atlas在内部使用Graph模型持久保存它管理的元数据对象。
2.1.3 采集/导出(Ingest/Export):采集组件允许将元数据添加到Atlas。同样,“导出”组件将Atlas检测到的元数据更改公开为事件。
2.2 Integration层
在Atlas中,用户可以使用以下的两种方式管理元数据:
2.2.1 API: Atlas的所有功能都通过REST API向最终用户暴露,该API允许创建,更新和删除类型和实体。它也是查询和发现Atlas管理的类型和实体的主要机制。
2.2.2 Messaging: 除了API之外,用户还可以选择使用基于Kafka的消息传递接口与Atlas集成。
2.3 Metadata sources层
使用HDFS进行存储,使用MapReduce进行计算。
目前,Atlas支持从以下来源提取和管理元数据:HBase 、Hive、Sqoop、Storm、Kafka
2.4 Applications层
Atlas管理的元数据被各种应用程序使用,以满足许多治理需求。
2.4.1 Atlas Admin UI: 该组件是一个基于Web的应用程序,允许数据管理员和科学家发现和注释元数据。这里最重要的是搜索界面和类似SQL的查询语言,可用于查询Atlas管理的元数据类型和对象。
2.4.2 Ranger Tag Based Policies:权限管理模块
二、下载
1.Atlas官网地址
https://atlas.apache.org/
2.下载地址
https://www.apache.org/dyn/closer.cgi/atlas/0.8.4/apache-atlas-0.8.4-sources.tar.gz
Solr下载: http://archive.apache.org/dist/lucene/solr/5.2.1/solr-5.2.1.tgz
三、安装
1.安装环境准备
1.1安装Maven
(1)解压apache-maven-3.6.1-bin.tar.gz
[root@bigdata3 soft]$ tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /opt/
(2)修改apache-maven-3.6.1的名称为maven
[root@bigdata3 opt]$ mv apache-maven-3.6.1/ maven
(3)配置Maven环境变量
[root@bigdata3 opt]$ vim /etc/profile
#MAVEN_HOME
export MAVEN_HOME=/opt/module/maven
export PATH= P A T H : PATH: PATH:MAVEN_HOME/bin
(4)测试安装结果
[root@bigdata3 opt]$ source /etc/profile
[root@bigdata3 opt]$ mvn -v
(5)修改setting.xml,指定为阿里云
[root@bigdata3 maven]$ cd conf
[root@bigdata3 maven]$ vim settings.xml
提示:UI界面出现Cloud菜单栏时,solr的Cloud模式才算部署成功。
1.3其他环境要求
JDK8、稳定运行的Hadoop集群、Zookeeper集群、Hbase集群(要求1.x)Hive数据仓库、Kafka集群、Solr集群(5.2.1)
2.安装Atlas
Atlas对Hadoop、Solr、Kafka、Hbase等的版本都有要求,hdp集群的版本都较低,故折中选择Atlas0.84
2.1 编译Atlas源码包
(1)解压apache-atlas-0.8.4-sources.tar.gz
[root@bigdata3 soft]$ tar -zxvf apache-atlas-0.8.4-sources.tar.gz -C /opt/module/
(2)修改apache-atlas-sources-0.8.4的名称为atlas
[root@bigdata3 opt]$ mv apache-atlas-sources-0.8.4/ atlas
(3)构建Atlas
[root@bigdata3 atlas]$ export MAVEN_OPTS="-Xms2g -Xmx2g"
[root@bigdata3 atlas]$ mvn clean -DskipTests install#一定要在 a t