Spark实战2：实现impala的分桶查询

最新推荐文章于 2023-03-05 02:44:53 发布

bm8836900

最新推荐文章于 2023-03-05 02:44:53 发布

阅读量2k

点赞数 2

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bm8836900/article/details/89883808

版权

本文介绍了在面临大量数据查询需求时，如何利用Spark生成parquet并保存到HDFS，实现类似于Hive的分桶查询。通过扩展字段、计算hash取模、自定义UDF，以及在Impala中加载UDF，实现对特定key的快速定位。讨论了目前方案的不足，如分桶算法的灵活性问题，并提出改进方向。

摘要由CSDN通过智能技术生成

Spark实战2：实现impala的分桶查询

问题来了
- 问题场景
解决
还需继续改进之处

之前的文章中博主讲过对parquet文件进行了按照时间（年月日）的分区，是为了减少每次日常离线任务，所需要加载的数据量。这样按照year=2019/month=01/day=01的分区，可以使spark作业每天准确的加载前一天的数据进行计算。但是，还有一个问题在这样的分区下无法解决。那么，问题来了。

问题来了

虽然按照日期分区减少了数据量，但每天的数据量还是很大（2T左右）。
遇到需要精确抽取某一个key下所有数据或者部分数据这样的问题，还是无法快速的抽取数据的。

问题场景

需求

算法部门需要抽取某一个车辆在最近一周内上传的所有数据。

分析

看到这个需求时，我们可以敏锐的看到这就是一个hbase就可以满足的。当然其他方式也可以满足这个需求，但不如hbase快速。于是就有了多个解决方案：

可以从hbase中提取。可以使用良好设计的rowkey提取这个车辆近一周的数据。
可以用impala或者hive导出
可以用spark sql导出

分析结果

看到了上面的各种方案，那种方案最适合博主的实际环境呢？
集群实际环境：
博主所在公司的集群是一个CDH的混合集群，也就是说在集群上安装着hadoop（hdfs+yarn）、spark、impala、Zookeper、hbase、flame等等组件。
<

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。