shell获取hive查询数据结果_使用shell+awk完成Hive查询结果格式化输出

最新推荐文章于 2022-10-12 21:14:25 发布

weixin_39762856

最新推荐文章于 2022-10-12 21:14:25 发布

阅读量845

点赞数

文章标签： shell获取hive查询数据结果

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39762856/article/details/111793571

版权

本文介绍了如何使用Shell和Awk脚本来解决Hive查询结果格式化输出的问题，包括对不同字段长度和数量的动态适应，以及处理包含多个数据块的文件。文中详细阐述了实现思路，包括初始化字段长度数组，动态计算最大长度，处理汉字字符，以及多文件输入等，并提供了完整的脚本示例。

摘要由CSDN通过智能技术生成

好久不写，一方面是工作原因，有些东西没发直接发，另外的也是习惯给丢了，内因所致。今天是个好日子，走起！

btw，实际上这种格式化输出应该不只限于某一种需求，差不多是通用的。

需求：

--基本的：当前Hive查询结果存在数据与表头无法对其的情况，不便于监控人员直接查看，或者导出到excel中，需要提供一个脚本，将查询结果处理下，便于后续的查看或者操作。

--额外的：A、每次查询出来的结果字段数、字段长度不固定；B、每个数据文件中可能包含不只一套查询结果，即存在多个schema。

想法：

对于基本需求而言，无非就是将数据文件用格式化输出整理一下，直接想到了awk。

对于补充的情况，A：需要实现一种机制，基于数据文件，动态地确定格式化输出的参数：字段个数，以及每个格式化字符串的长度参数；B：实现对数据文件根据字段数切割成多段，然后对于每段数据套用前面的脚本处理。

做法：

基本需求：

1、指定字段分隔符为“\t”

2、将每个字段按照指定长度格式化输出

1 BEGIN{2 FS="\t"

3 }4 {5 printf "%-"len"s\t",$i6 }

额外需求A：

需要把代码写成“活”的，适应各种不同的数据文件，如前面所说，实际上就是在执行格式化输出之前，将数据文件扫描一遍，用一个数组记录下文件中每个字段的max

length，然后将这个max length作为该文件内格式化输出的额定宽度。

1、初始化一个fieldLen数组

2、扫描整个文件，更新fieldLen数组

3、将fieldLen数组，用于格式化输出

1 BEGIN{2 FS="\t"

3 }4 NR==1{5 for (i=1;i<=NF;i++)6 fieldLen[i]=0

7 }8 {9

10 for (i=1;i<=NF;i++)11 {12 len=length($i)13

14 if (len>fieldLen[i])15 {16 fieldLen[i]=len17 }18 }19

20 }21

22 END{23 for (i=1;i<=NF;i++)24 {25 printf "%-s",fieldLen[i]26 if (i

28 else

29 printf "

最低0.47元/天解锁文章

weixin_39762856

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。