Apache Atlas 数据治理-血缘关系工具

前言:
部门业务数据治理中字段血缘关系的实现,平台使用了工具Apache Atlas,简单查了些内容对自己进行科普,后续再深入

以下摘自文章:
参考文章:https://blog.csdn.net/u011423145/article/details/107855383?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.control&dist_request_id=f92aca56-f7c6-40c4-9042-cd80f00b3491&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.control

一 Atlas是什么?
Atlas是由Hadoop发行商HortonWorks公司2015贡献给Apache基金组织的一款面向Hadoop生态圈的数据溯源工具。主要用于监控Apache Hive、Apache Hbase、Apache Kafka、Apache Storm的元数据变更,并会自动生成数据流动图,通过UI的Web界面展示给用户。

二 在企业的数据资产中,通过数据血缘,我们能够解决以下几个场景的问题:
1、快速了解到一张业务报表来源于那几个系统、来源于哪几张表。
2、快速洞察到这张业务报表经过了几个步骤生成的。
3、在数据仓库中,能快速判断一张ODS层的源表数据会流动到下游哪些DW、DM层数据表内。如果改动这张源表,会影响到哪些下游数据、哪些业务报表。
4、在生产环境中,如果有一张数据表出现错误,通过数据血缘图,可以快速知晓,数据错误来源于前面哪个环节、可能会影响到后面哪个环节。
5、通过分析数据血缘图的关键节点(即图中节点入度、出度较高的节点),我们能更好的总结出哪些业务数据是被经常用到的、是关键性的,更好的编排节点间的调度工作流,优化计算资源。

三 Atlas的数据溯源功能介绍
Atlas主要针对与Hadoop旗下的数据产品进行数据溯源。
Apache Hive等应用在产生元数据变化(比如新增表、新增字段)和数据流动(比如Insert into)的时候,通过钩子的方式主动告知Atlas更新数据血缘图。

四 Atlas是如何实现数据溯源的?

Atlas主要通过Hook方式让Hive将元数据信息通过Apache Kafka传送过来。
Atlas使用了JanusGraph[2]做图数据存储引擎。借助JanusGraph,数据血缘关系主要通过图的形式进行存储在Hbase中,每个节点的详细信息存储在Solr中。
除了前端UI,Atlas还支持第三方应用通过API、Kafka获取数据血缘相关信息。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值