数据治理 Python桑基图处理表关系

最新推荐文章于 2024-01-13 22:33:59 发布

丶大白菜

最新推荐文章于 2024-01-13 22:33:59 发布

阅读量2.3k

点赞数 3

分类专栏：数据治理 Python 血缘关系文章标签：数据仓库数据可视化 python

本文链接：https://blog.csdn.net/dbc_zt/article/details/114588765

版权

随着hive库表越来越多，调度出问题后，排查时间越来越长。计划通过桑基图以及血缘图谱解决，当前先用桑基图页面顶一段时间。后期做成web服务，如果有可能，尽量嵌入到hive metastore

业务DB/中间件 – ods – cdm – ads – 大数据服务DB

业务DB/中间件 – 调度 – ods – 调度 – cdm – 调度 – ads – 调度 – 大数据服务DB

方案一： 从hive metastore关联表获取（DBS + TBLS)

## 所有库表一次获取
SELECT concat(b.NAME,'.',a.TBL_NAME) FROM TBLS a 
LEFT JOIN DBS b ON a.DB_ID = b.DB_ID;

方案二： 从hdfs 获取

## 分库表多次获取
hadoop fs -ls /user/hive/warehouse/tmp.db/ | awk -F ' ' '{print $8}' | sed 's/\/user\/hive\/warehouse\/tmp\.db\//tmp\./g'

方案三： 从hive客户端获取

## 分库表多次获取
use tmp; # a库，b库...
show tables;

CREATE TABLE `links` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `source` varchar(255

关注

专栏目录