![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据治理
主要包括元数据治理,如Apache Atlas/Apache Ranger等。
joker1993
这个作者很懒,什么都没留下…
展开
-
CDH 6.3.x/6.2.x 环境下Apache Atlas 2.0.0的编译与安装部署(Not-embedded)
前言按照官方文档[1]的说法,Atlas的编译与安装主要有Not-embedded、embedded两种方式。Not-embedded是指Atlas使用的JanusGraph的Hbase与Solr需要单独部署,embedded指Atlas的在编译过程中会自动下载JanusGraph的Hbase与Solr。当然JanusGraph的图数据存储也可以放在BerkeleyDB、Cassandra中、索引数据也存放在Elasticsearch中。本系列博文默认图数据存储在Hbase,索引数据放在Solr中。原创 2020-08-07 10:17:57 · 1101 阅读 · 5 评论 -
使用Apache Atlas 2.0.0快速定位数据仓库中的脏数据问题
以阿里增量数据项目为例,目前有一张DW层表biz_dw.dwb_acloud_pzx_rmb_diff,里面的其中一个字段有脏数据,我们需要快速定位这个字段可能来自于哪张表。通过Atlas UI界面,选择“hive_table”类型,在查询框中搜索“dwb_acloud_pzx_rmb_diff”,点击查询结果中的“Lineage”,得到以下查询结果:上图中红色圈中的“dwb_acloud_pzx_rmb_diff”,为我们的查询目标,可以看出这张表主要来自于dwb_acloud_pzx_.原创 2020-08-07 10:07:59 · 601 阅读 · 2 评论 -
使用Apache Atlas 2.0.0解决数据溯源问题(CDH 6.2/CDH 6.3环境)
Atlas是什么?Atlas是由Hadoop发行商HortonWorks公司2015贡献给Apache基金组织的一款面向Hadoop生态圈的数据溯源工具。主要用于监控Apache Hive、Apache Hbase、Apache Kafka、Apache Storm的元数据变更,并会自动生成数据流动图,通过UI的Web界面展示给用户。Atlas的数据溯源效果如下:什么是数据溯源?数据溯源(Data province)的概念在20实际90年代就有提出[1],是数据治理范畴的一部分,主.原创 2020-08-07 10:03:35 · 2252 阅读 · 1 评论