spark sql 查看分区_Spark-sql读取hive分区表限制分区过滤条件及限制分区数量

最新推荐文章于 2024-07-26 23:13:56 发布

weixin_39974882

最新推荐文章于 2024-07-26 23:13:56 发布

阅读量2.3k

点赞数

文章标签： spark sql 查看分区

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39974882/article/details/111492958

版权

本文介绍了在Spark读取Hive分区表时遇到的全量数据加载问题，以及如何通过自定义规则`CheckPartitionTable`来解决。该规则在`Optimizer`中增加，用于检查并限制分区过滤条件和数量，提高任务执行效率，减少磁盘IO损耗。文章详细阐述了规则实现的步骤，包括判断是否为分区表、分离分区谓词、检查分区字段以及应用规则到计划。

摘要由CSDN通过智能技术生成

问题描述

在开发过程中使用spark去读取hive分区表的过程中(或者使用hive on spark、nodepad开发工具)，部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题

解决办法

1、自定义规则CheckPartitionTable类，实现Rule

type ExtensionsBuilder = SparkSessionExtensions => Unit

//在Optimizer中追加CheckPartitionTable规则执行器

val extBuilder: ExtensionsBuilder = { e => e.injectOptimizerRule(CheckPartitionTable) }

val conf = new SparkConf()

.setMaster("local[*]")

.set("spark.table.check.partition", "true")

.set("spark.table.check.partition.num","30")

.setAppName("SQL")

val spark = SparkSession.builder().config(conf).withExtensions(extBuilder).enableHiveSupport().getOrCreate()

然后通过此种方法创建SparkSession

2、自定义规则CheckPartitionTable类，实现Rule，将规则类追加致Optimizer.batches: Seq[Batch]中

最低0.47元/天解锁文章

weixin_39974882

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark sql 查看分区_Spark-sql读取hive分区表限制分区过滤条件及限制分区数量

问题描述在开发过程中使用spark去读取hive分区表的过程中(或者使用hive on spark、nodepad开发工具)，部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题解决办法1、自定义规则CheckPartitionTable类，实现Ruletype ExtensionsBuilder = SparkSessionExtensio...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。