Spark读取Hive分区表出现Input path does not exist的问题！！

最新推荐文章于 2024-05-03 17:27:06 发布

香山上的麻雀1008

最新推荐文章于 2024-05-03 17:27:06 发布

阅读量1.4k

点赞数

文章标签： hive spark 大数据 hadoop hdfs

本文链接：https://blog.csdn.net/qq_26502245/article/details/108510620

版权

Hive读取正常，不会报错，Spark读取数据就会出现报错信息：

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: 
hdfs://testcluster/user/hive/warehouse/....

然后我们去查看一下表数据的具体在hdfs上的存储路径，去hdfs上查看，发现文件确实不存在！

问题解决
在清理历史数据的时候手动删除数据了但是没有删除数据分区信息。导致spark找不到。
在hive中执行 show partitions test，查看test表对应的所有分区。
Spark加载hive分区表数据会根据show partitions中的分区去加载，发现目录缺失就会出错了。
只需要删除分区就可以了
alter table TableName drop partition (p=‘xxx’)

优惠劵

香山上的麻雀1008

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark读取Hive分区表出现Input path does not exist的问题！！

Hive读取正常，不会报错，Spark读取数据就会出现报错信息：org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://testcluster/user/hive/warehouse/....然后我们去查看一下表数据的具体在hdfs上的存储路径，去hdfs上查看，发现文件确实不存在！...
复制链接

扫一扫