Hive SQL 中 map, reduce 的数据血缘分析

Hive SQL 中的有些 SQL 语句和传统关系型数据库中使用的 SQL 语句在语法和功能上都有非常大的差异。在数据血缘分析中对这些 Hive SQL 特有的 SQL 语法的支持,是马哈鱼数据血缘关系分析工具和一般数据血缘分析工具的一个重要区别,对这些特殊 SQL 语法的支持,为企业的数据治理提供了完整的数据血缘,可以更好的提高数据质量,让企业的海量数据的在数据挖掘和智能分析中发挥更大的作用。

这里是一个典型的 Hive SQL,使用了 map, reduce。

FROM (
    FROM pv_users
    MAP ( pv_users.userid, pv_users.date )
    USING 'map_script'
    AS c1, c2, c3
    DISTRIBUTE BY c2
    SORT BY c2, c1) map_output
  INSERT OVERWRITE TABLE pv_users_reduced
    REDUCE ( map_output.c1, map_output.c2, map_output.c3 )
    USING 'reduce_script'
    AS date, count;

该 Hive SQL语句把 pv_users.userid, pv_users.date 字段通过 map_script 脚本映射为 map_output c1, c2, c3 字段, 然后通过 reduce_script 脚本 reduce为 date, count 字段,插入到 pv_users_reduced 表。

我们可以梳理出如下的数据流:

pv_users.userid --> map_output c1
pv_users.userid --> map_output c2
pv_users.userid --> map_output c3
pv_users.date --> map_output c1
pv_users.date --> map_output c2
pv_users.date--> map_output c3

map_output c1 --> pv_users_reduced.date
map_output c1 --> pv_users_reduced.count
map_output c2 --> pv_users_reduced.date
map_output c2 --> pv_users_reduced.count
map_output c3 --> pv_users_reduced.date
map_output c3 --> pv_users_reduced.count

使用马哈鱼数据血缘分析器,可以自动的分析出如下的数据血缘关系:
在这里插入图片描述

如果你正在使用 Hive SQL 来处理企业数据仓库中的大数据,进行数据的清洗、转换、计算等工作,那么,马哈鱼数据血缘分析器可以为你自动梳理这些数据的血缘关系,告诉你数据的来龙去脉,极大的提高你的工作效率和数据治理水平。

参考

马哈鱼数据血缘关系分析工具中文网站: https://www.sqlflow.cn

马哈鱼数据血缘关系分析工具英文网站: https://docs.gudusoft.com

马哈鱼数据血缘关系分析工具在线使用: https://sqlflow.gudusoft.com

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值