环境
ubuntu20.04; atlas1.4.x
hadoop2.6
概述
Altlas 是一组可扩展和可收缩核心治理服务 - - 使企业有效高效满足他们可塑性需求,在hadoop中允许集成到整体企业数据生态.
Apache Atlas提供开源的元数据管理和治理能力, 为组建他们的资产目录,分类,管理这些资产和为数据科学,数据分析和数据管理团队 提供围绕这些数据资产协作能力.
特性
元数据类型和实例
- 为多样的hadoop和非hadoop预定义类型
- 为元数据定义新类型来管理的能力
- 类型和基础属性,复杂属性,对象引用;可以从其它类型继承
- 类型的实例称为entities, 捕获元数据对象详情和他们的关系.
- REST API与类型和实例一起工作,允许更容易集成.
分类
- 动态创建分类的能力 - 像PII, EXPIRES_ON, DATA_QUALITY, SENSITIVE
- 分类可以包含属性 - 像在分类中EXPIRES_ON 中expiry_date 属性
- Entities 可以关联多个分类, 开启后容易发现并且安全执行
- 分类的传播通过血缘 - 自动保证分类随着数据增长而各自处理
血缘
- 直观的UI来查看数据血缘,只要移动通过不同处理
- REST APIs来访问和更新血缘
搜索 / 发现
- 直观的UI来通过类型搜索entities,分类,属性值或任一文本
- 丰富的REST APIs来通过复杂的条件搜索
- 类SQL语言来搜索entities - 领域特定语言(DSL)
安全与数据屏蔽
- 细粒度安全为访问元数据, 开启entity 实体访问和操作像 add/update/remove的分类操作
- 集成Apache Ranger开启授权/数据屏蔽数据的访问,基础分类关联atlas中的entities. 例如:
- 谁可以访问数据分类 像PII, SENSITIVE
- 自定义服务用户只能看到最后数个数字在例分类是NATIONAL_ID
快速开始
安装 & 编译
Installing Apache Atlas
require
maven 版本3.5及以上版本& Java 8 (151) 及以上
sudo apt update sudo
apt install nodejs npm
build
tar xvfz apache-atlas-1.0.0-sources.tar.gz
cd apache-atlas-sources-1.0.0/
export MAVEN_OPTS="-Xms2g -Xmx2g"
mvn clean -DskipTests install
Packaging Apache Atlas
mvn clean -DskipTests package -Pdist
介绍
快速开始是一个简单客户端在下例之后来增加几个简单定义类型模式,如下图.它也增加简单entities跟随traits 展示在下图.
类型定义例子
图实例例子
运行例子
例子增加简单的类型和实体化伴随在上图中的一些特征
bin/quick-start.sh
仪表盘
用来搜索的仪表盘
http://localhost:21000/