Hive brickhouse多列合并生成Json collect_set JsonUDF

1 篇文章 0 订阅

在做数据聚合整理的时候,存在需要将同一ID的多列,合并成一个json,通过collcet_Set手动拼接json,手动效率不高,而且内置的UDF有连接符,最后生成的json格式怎么调试都不对,本想自己写UDF生成json,google后找到存在的UDF函数,先做以下记录:
google原帖参考:

https://stackoverflow.com/questions/25188734/converting-data-from-multiple-hive-tables-to-complex-json
https://stackoverflow.com/questions/24826530/collect-to-a-map-in-hive

附上github地址:

https://github.com/klout/brickhouse

该项目已经三年没更新,自己手动编译为通过,可能是原项目JDK版本太老了,好在有现成jar包
在这里插入图片描述
复制jar包到服务器

--导入udf
 ADD jar /opt/UDF/brickhouse-0.7.1-SNAPSHOT.jar;
--创建临时UDF包collect
CREATE
TEMPORARY FUNCTION collect AS 'brickhouse.udf.collect.CollectUDAF';
--创建临时UDF包to_json 
CREATE
TEMPORARY FUNCTION to_json AS 'brickhouse.udf.json.ToJsonUDF';

这里解释下:
to_json可以将to_json(collect_set(字段名1)),将单列字段名1生成JSON串,生成的结果不带KEY值,格式为[{“value1”,“value2”…}]
这里在解释下collect_set collect_list的区别,collect_set 去重,collect_list不去重
collect可以将多列字段名,通过json的key-value方式结合,并且可以通过嵌套sort_array进行排序,其中得通过内置named_struct的UDF,组合为KEY-VALUE的格式,
to_json(sort_array(collect_set(named_struct(“key1”,字段名1,“key2”,字段名2… ))))
最后生成的json串带排序,且为key-value的格式
在这里插入图片描述
附 named_struct函数的官方解释

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值