APACHE-ATLAS-2.1.0简介(二)

APACHE-ATLAS-2.1.0简介(一)

什么是元数据?

元数据(METADATA),用一句话定义就是:描述数据的数据。元数据打通了数据源、数据仓库、数据应用之间的壁垒,记录了数据从产生到消费的全过程。

ATLAS的问题列表

APACHE-ATLAS-STACKOVERFLOW

APACHE-ATLAS-2.1.0的版本依赖

Use Hadoop 3.1, Hive 3.1, HBase 2.0, Solr 7.5, Kafka 2.0, JanusGraph 0.5.1, Tinkerpop 3.4.6, Spring Framework 4.3.20

ATLAS的特性

(1). 元数据类型 & 实例

  • 内置各种Hadoop和非Hadoop元数据的预定义类型;
  • 能够为要管理的元数据自定义新类型;
  • 类型可以具有原始属性,复杂属性,对象引用,可以继承其他类型;
  • 类型(type)实例(称为实体entities)捕获元数据对象详细信息及其关系;
  • 提供可以更轻松地进行集成用于处理类型和实例的REST API;

(2). 分类

  • 能够动态创建分类 - 如PII,EXPIRES_ON,DATA_QUALITY,SENSITIVE;
  • 分类可以包含属性 - 例如EXPIRES_ON分类中的expiry_date属性;
  • 实体(entities)可以与多个分类(classifications)相关联,从而实现更轻松的发现和安全实施;
  • 通过血缘传播分类 - 自动确保分类在进行各种处理时遵循数据;

(3). 血缘

  • 直观的UI,用于在数据流转时,通过各种流程时查看数据;
  • 提供用于访问和更新血缘的REST API;

(4). 搜索/发现

  • 直观的UI,按类型(type),分类(classification),属性值(attribute)或自由文本搜索实体;
  • 提供丰富的REST API,可按复杂条件进行搜索;
  • SQL搜索实体的查询语言 - 域特定语言(DSL);

(5). 安全和数据屏蔽

  • 用于元数据访问的细粒度安全性,实现对实体实例的访问控制以及添加/更新/删除分类等操作;
  • 与APACHE RANGER集成可根据与APACHE ATLAS中的实体相关的分类对数据访问进行授权/数据屏蔽,如:
    – 谁可以访问分类为PII,SENSITIVE的数据;
    – 客户服务用户只能看到分类为NATIONAL_ID的列的最后4位数字;

ATLAS分类传播

分类传播,使得数据所关联的分类能够沿着血缘关系,从父类传递给子类。

  • 当给实体数据打上分类标签后,该实体数据的子也可以得到该分类标签;
  • 当更新实体数据上的分类标签后,该实体数据的子也会对应的修改这个分类标签;
  • 当删除实体数据上的分类标签后,该实体数据的子也会对应的删除这个分类标签;
  • 当父实体数据删除时,子类所得到的这个父类的所有分类标签也会被删除;
  • 当子类到父类之间的血缘关系被破坏时,子类也会失去父类的分类标签;
  • 虽然子类到父类之间的一条血缘链中断,但是只要还有另一条血缘链存在,且使得子类可以连接到父类,那么子类就能够保存从其父类继承来的分类标签。

ATLAS模块概述

在这里插入图片描述

apache-atlas-2.1.0-hive-hook.tar.gz是Apache Atlas项目中的一个软件包。Apache Atlas是一个开源的数据治理和元数据框架,用于收集、集成、索引和搜索数据资产。它提供了一个统一的视图来管理企业中的所有数据资产,包括表、列、模式、实体和关系等。而apache-atlas-2.1.0-hive-hook.tar.gz是Atlas项目为了与Hive集成而提供的一个插件。 Hive是一个构建在Hadoop之上的数据仓库基础设施工具,用于处理大规模的结构化数据。它提供了类似于SQL的查询和分析功能,可以将数据批量导入、导出和查询。通过与Apache Atlas的集成,可以实现对Hive中数据资产的元数据管理和治理。 在实际的应用中,apache-atlas-2.1.0-hive-hook.tar.gz可以被部署到Hive的服务器上,并与Hive的插件机制进行集成。通过配置Hive的元数据存储URL、用户名和密码等信息,Atlas可以自动从Hive中提取元数据,并将其索引到Atlas的元数据仓库中。这样,用户可以在Atlas的界面中浏览和搜索Hive中的表、列和关系,并进行数据资产的管理和治理。 此外,apache-atlas-2.1.0-hive-hook.tar.gz还提供了一些其他功能,如基于分类标签的权限控制、数据血缘追踪、数据脱敏等。通过这些功能,用户可以更好地理解和管理Hive中的数据资产,提高数据治理的效率和质量。 总之,apache-atlas-2.1.0-hive-hook.tar.gz是Apache Atlas项目中用于与Hive集成的插件,通过它可以实现对Hive中数据资产的元数据管理和数据治理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cloneme01

谢谢您的支持与鼓励!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值