Spark default 分区为空时无法查询的问题解决

在创建了spark动态分区表时,如果插入数据时,分区值为null或者’‘, spark会将分区值设置成默认值:

__HIVE_DEFAULT_PARTITION__

这里,spark2.3在处理的时候,会忽略分区值为null的数据,因此会存在如下select语句查询不到结果的情况:

select * from t where p =’__HIVE_DEFAULT_PARTITION__‘

该问题出在org/apache/spark/sql/catalyst/catalog/interface.scala中

这里spark2.3在判断的时候,如果分区为空,则会直接返回null,不返回数据,因此无法删除:

通过对比spark2.1和spark2.3代码,此处的实现在2.3中多了部分代码,但是没写明此处设计的原因。猜测其是本身对于分区来说,不建议出现分区值为null的情况。

 

关于这个问题的讨论,可以参看spark jira, 开发人员认为null 和空字符串在hive中,本来就是无效的分区值,后面为了跟hive保持一致,又做了null和空字符串的列名映射(即变成了__HIVE_DEFAULT_PARTITION__),然后这个地方可能是遗漏了没改到吧。

https://issues.apache.org/jira/browse/SPARK-24438?jql=project%20%3D%20SPARK%20AND%20text%20~%20%22DEFAULT_PARTITION_NAME%22

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值