使用Apache Atlas 2.0.0解决数据溯源问题(CDH 6.2/CDH 6.3环境)

Atlas是什么?

Atlas是由Hadoop发行商HortonWorks公司2015贡献给Apache基金组织的一款面向Hadoop生态圈的数据溯源工具。主要用于监控Apache Hive、Apache Hbase、Apache Kafka、Apache Storm的元数据变更,并会自动生成数据流动图,通过UI的Web界面展示给用户。

 

Atlas的数据溯源效果如下:


什么是数据溯源?

数据溯源(Data province)的概念在20实际90年代就有提出[1],是数据治理范畴的一部分,主要研究、追踪数据的起源与重现数据的历史状态。

数据血缘(Data lineage)是数据溯源的主要展示手段,主要通过数据流图的形式,展示出数据从哪里来,往哪去。

 

而在企业的数据资产中,通过数据血缘,我们能够解决以下几个场景的问题:

1、快速了解到一张业务报表来源于那几个系统、来源于哪几张表。

2、快速洞察到这张业务报表经过了几个步骤生成的。

3、在数据仓库中,能快速判断一张ODS层的源表数据会流动到下游哪些DW、DM层数据表内。如果改动这张源表,会影响到哪些下游数据、哪些业务报表。

4、在生产环境中,如果有一张数据表出现错误,通过数据血缘图,可以快速知晓,数据错误来源于前面哪个环节、可能会影响到后面哪个环节。

5、通过分析数据血缘图的关键节点(即图中节点入度、出度较高的节点),我们能更好的总结出哪些业务数据是被经常用到的、是关键性的,更好的编排节点间的调度工作流,优化计算资源。

 

在中小企业中数据溯源过程一般主要靠人工手工整理,以图表的形式做成文档,进行传阅。

这种方式往往需要耗费较多人力,需要开发人员熟悉整体公司数据架构,先要翻阅数据库表结构文档、阅读存储过程脚本、理解存储过程的调度逻辑,然后手工绘制数据流图,再调整样式,才能将文档提交。

这类工作较为繁琐,开发人员难免会出现遗漏或错误,绘制出错误的数据流图,而且这种人工错误往往很难被发现与验证。

如果是大中型企业,数仓等数据应用的更新迭代往往很快,人工绘制数据血缘图的时间上落后于系统更新的时间,实时性往往很差。

而使用Atlas则可以直接通过Web UI界面探索企业整体的数据血缘图,并随时生成Png图片,提升日常工作效率。

 


Atlas的数据溯源功能介绍

Atlas主要针对与Hadoop旗下的数据产品进行数据溯源。Apache Hive等应用在产生元数据变化(比如新增表、新增字段)和数据流动(比如Insert into)的时候,通过钩子的方式主动告知Atlas更新数据血缘图。

Atlas除了能解决上述盘点的几种场景下的问题,还提供了以下几个方面的能力:

1、提供标签传播(Propagated)与血缘图谱分类功能。比如对于一张ODS的进项发票明细表,可以将该节点标记为“财务”标签,那么这张表影响的任何一张表,都会有一个“财务”标签。

2、提供数据审计(Audit)功能。从时间上也能溯源,Atlas能记录一个数据表从创建到修改字段、插入数据、更新数据到销毁的全部事件。

3、支持与Apache Ranger结合,实现数据鉴权功能。

4、支持列级别数据溯源。

 


Atlas的UI界面

Atlas的UI主要包括侧边栏与画布两部分,侧边栏用来查询,画布用来展示数据溯源图。

侧边栏分为Search、Classification、Glossary三部分,在Search中选择Basic做简单检索。

点击下拉框Search By Type选择类型,比如hive table、hive columns等,这里以hive table为例子,在Search By Text中输入要查询到的表:

点击Properties,获得表的基本信息:

点击Lineage,获得表的数据溯源:

点击Relationships,获得表的列信息、数据库信息等:

点击Classifications,获得表的数据溯源分类:

点击Audits,获得表的数据审计(Audit)历史:

点击Schema,获得表的表结构:

其中在Lineage标签中,可以全屏查看,并点击右上角调节显示样式:

以上截图覆盖了Atlas常用的操作。

Atlas是如何实现数据溯源的?

Atlas主要通过Hook方式让Hive将元数据信息通过Apache Kafka传送过来。

Atlas使用了JanusGraph[2]做图数据存储引擎。借助JanusGraph,数据血缘关系主要通过图的形式进行存储在Hbase中,每个节点的详细信息存储在Solr中。

除了前端UI,Atlas还支持第三方应用通过API、Kafka获取数据血缘相关信息。

市面上还有哪些数据溯源工具?

目前国外主流的数据溯源工具还有CDH Navigtor[3]、Linkedin WhereHows[4]。

CDH Navigtor:由Cloudera公司CDH产品下的数据溯源工具,优点是部署运维简单,与CDH版本Hadoop无缝结合,但是需要收费。

Linkedin WhereHows:领英出品的大数据溯源工具。

Atlas有哪些缺陷?

Atlas由HortonWorks公司贡献给Apache基金会,但HortonWorks公司目前已被竞争对手厂商Cloudera公司收购,目前Atlas的位置还比较尴尬,之后的发展情况不清楚。

 

1、https://www.zhihu.com/question/53885651

2、https://janusgraph.org/

3、https://zeenea.com/wherehows-a-data-discovery-and-lineage-portal-for-linkedin/

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值