Spark SQL 读取hive分区表出现分区字段为null的情况

最新推荐文章于 2024-03-25 10:12:15 发布

Coder杨公子

最新推荐文章于 2024-03-25 10:12:15 发布

阅读量4.2k

点赞数 1

分类专栏：那些年踩过的坑

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/big_data1/article/details/86612855

版权

那些年踩过的坑专栏收录该内容

4 篇文章 0 订阅

订阅专栏

今天在使用Spark SQL 读取hive分区表数据的时候，出现了下面的错误：

由于这个表是数仓维护提供给我使用的，我并不是很清楚表中数据的情况，于是我取查了一下这个表，发现分区字段pk_year，pk_month,pk_day这几个字段确实都存在为默认的情况：

在hive里面表可以创建成分区表，但是当分区字段的值是''" 或者 null时 hive会自动将分区命名为默认分区名称。

默认情况下，默认分区的名称为__HIVE_DEFAULT_PARTITION__

当然默认分区名称是可配置的。

配置参数是 hive.exec.default.partition.name

解决方法：

当前我的解决方式是在Spark SQL中将分区字段为空的数据过滤掉，就不会报错了。

另外已经找数仓的同事沟通，让他们在抽取数据的时候，将分区字段为空的数据过滤掉或者补上分区字段的正确值。

欢迎关注我的博客：[杨公子的个人博客](http://www.yanggongzi.top)

欢迎关注我的公众号——数据杨公子。本公众号会分享包括但不限于大数据、数据治理、元数据管理、python 等方面的技术文章，主旨是和大家一起共同成长，用技术来认识我们这个数据的时代。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JKJ6DjY6-1582591094615)(https://img.hacpai.com/file/2020/02/image-346a3140.png)]

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Spark SQL 读取hive分区表出现分区字段为null的情况

今天在使用Spark SQL 读取hive分区表数据的时候，出现了下面的错误：由于这个表是数仓维护提供给我使用的，我并不是很清楚表中数据的情况，于是我取查了一下这个表，发现分区字段pk_year，pk_month,pk_day这几个字段确实都存在为默认的情况：在hive里面表可以创建成分区表，但是当分区字段的值是''"或者 null时 hive会自动将分区命名为默认分区名称。...
复制链接

扫一扫

专栏目录

Coder杨公子 CSDN认证博客专家 CSDN认证企业博客

码龄7年

38: 原创

10万+: 周排名

107万+: 总排名

27万+: 访问

: 等级

1409: 积分

28: 粉丝

122: 获赞

24: 评论

499: 收藏

私信

关注

热门文章

分类专栏

ELK 1篇
Linux命令 1篇
springboot 1篇
Mysql方法论与实践 1篇
python 1篇
数据管理 1篇
手撕LeetCode 6篇
安装教程 1篇
WEB 1篇
面经 2篇
项目构建 1篇
scala 4篇
那些年踩过的坑 4篇
自己造的小轮子 1篇
hive 1篇
shell 2篇
Java 1篇
kudu 6篇
spark 1篇
工具 1篇
Docker 2篇

最新评论

Docker（二）：一个简单的Dockerfile实例
愚且憨: 直接使用文章中提供的dockerfile文件练习会出现： > [3/4] RUN apt-get update && apt-get install -y nginx: 0.414 Ign:1 http://mirrors.aliyun.com/ubuntu raring InRelease 0.491 Err:2 http://mirrors.aliyun.com/ubuntu raring Release 0.491 404 Not Found [IP: 183.2.193.240 80] 0.493 Reading package lists... 0.500 E: The repository 'http://mirrors.aliyun.com/ubuntu raring Release' does not have a Release file. ------ Dockerfile:13 -------------------- 11 | # 3、镜像操作指令 12 | RUN echo "deb http://mirrors.aliyun.com/ubuntu/ raring main universe" > /etc/apt/sources.list 13 | >>> RUN apt-get update && apt-get install -y nginx 14 | RUN echo "\ndaemon off;" >> /etc/nginx/nginx.conf 15 | -------------------- ERROR: failed to solve: process "/bin/sh -c apt-get update && apt-get install -y nginx" did not complete successfully: exit code: 100 原因：Ubuntu 版本 "raring" 已经被归档（archive）并不再可用解决方法：将ubuntu版本改成18.04或20.04，如：FROM ubuntu:18.04
Spark SQL 读取hive分区表出现分区字段为null的情况
m0_59725528: 超棒，解决了我的疑问。查了下确实是分区字段本身存在null值。
SpringBoot java.lang.NoClassDefFoundError: org/eclipse/jetty/server/RequestLog$Writer
Ares_2020: 感谢一样的场景一样的问题
SpringBoot java.lang.NoClassDefFoundError: org/eclipse/jetty/server/RequestLog$Writer
小毕超: 感觉分享
IDEA 同一个工程下不同模块之间的类相互调用（Maven工程）
waitamintue: 我一开始没有加pom版本，后来加了子项目的pom版本就好了

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。