spark sql 查看分区_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件

最新推荐文章于 2024-05-07 22:53:47 发布

会打嗝的布谷鸟

最新推荐文章于 2024-05-07 22:53:47 发布

阅读量698

点赞数

文章标签： spark sql 查看分区

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34634231/article/details/112826978

版权

本文探讨了Spark SQL在处理Hive分区表时遇到的问题，特别是在通过路径加载数据时，如何确保获取到分区字段。当不指定basePath时，可能会导致DataSet丢失分区字段。解决方案包括在加载时指定basePath参数或重写源码中的basePaths和parsePartition方法。建议结合Spark SQL的logical plan解析，封装成通用工具。

摘要由CSDN通过智能技术生成

首先说一下，这里解决的问题应用场景：

sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？

这里涉及到两种情况：select SQL查询和加载Hive表路径的方式。这里仅就"加载Hive表路径的方式"解析分区表字段，在处理时出现的一些问题及解决作出详细说明。

如果大家有类似的需求，笔者建议通过解析Spark SQL logical plan和下面说的这种方式解决方案结合，封装成一个通用的工具。

问题现象

sparksql加载指定Hive分区表路径，生成的DataSet没有分区字段。

如，

sparkSession.read.format("parquet").load(s"${hive_path}")，hive_path为Hive分区表在HDFS上的存储路径。

hive_path的几种指定方式会导致这种情况的发生(test_partition是一个Hive外部分区表，dt是它的分区字段，分区数据有dt为20200101和20200102):

1.hive_path

为"/spark/dw/test.db/test_partition/dt=20200101"

2.hive_path为"/spark/dw/test.db/test_partition/*"

因为牵涉到的源码比较多，这里仅以示例的程序中涉及到的源码中的class、object和方法，绘制成xmind图如下，想细心研究的可以参考该图到spark源码中进行分析。

最低0.47元/天解锁文章

会打嗝的布谷鸟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark sql 查看分区_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件

首先说一下，这里解决的问题应用场景：sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？这里涉及到两种情况：select SQL查询和加载Hive表路径的方式。这里仅就"加载Hive表路径的方式"解析分区表字段，在处理时出现的一些问题及解决作出详细说明。如果大家有类似的需求，笔者建议通过解析Spark SQL logical p...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。