hive分区与实际分区文件不匹配导致spark读文件出错的问题解决

最新推荐文章于 2021-11-03 04:50:07 发布

weixin_30664051

最新推荐文章于 2021-11-03 04:50:07 发布

阅读量531

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/30go/p/11414489.html

版权

先解释下，由于历史原因导致hive中的看到分区比hdfs中的文件夹不匹配，存在hive中分区数有，实际hdfs中无此文件夹。

spark中通过sparkSQL读取hive中的该表时，将会出现异常。

解决方案：

1. 检查该表是否是外部表，如果不是，将属性修改为外部表属性。

这里修改为外部表，目的是在删除分区时，不会将已有的数据删除。必要时，先做好备份处理。

alter table tablename set tblproperties('EXTERNAL'='TRUE');

2. 删除异常分区

这里尝试过通过drop table方式来删除表，但是发现会报错。

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Invalid partition key & values; keys [year, month, day, hour, ], values [2018, ])

所以这里使用了删除分区。

alter table tablename drop partition(pk_year=2018);

3.使用分区修复命令重新创建分区

msck repair table tablename;

转载于:https://www.cnblogs.com/30go/p/11414489.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30664051

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark与Hive的数据分区与分桶策略详解

程序员光剑

05-22

1106

1. 背景介绍 1.1 大数据时代的数据处理挑战随着互联网、物联网、移动互联网等技术的飞速发展，全球数据量呈现爆炸式增长，大数据时代已经来临。海量数据的存储、管理和分析成为企业面临的巨大挑战。如何高效地处理和利用这些数据，从中提取有价值的信息，已成为当务之急。

Spark操作Hive分区表

热门推荐

主要分享大数据相关的知识，如Spark、Hudi

12-07

1万+

我的原创地址：https://dongkelun.com/2018/12/04/sparkHivePatition/ 前言前面学习总结了Hive分区表，现在学习总结一下Spark如何操作Hive分区表，包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插入数据，并记录一下遇到的问题以及如何解决。 1、Spark创建分区表只写主要代码，完整代码见附录......

参与评论您还未登录，请先登录后发表或查看评论

删除hive的分区元数据，spark总是读取到已经删掉的分区

qq_34009542的博客

05-23

4706

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://testcluster/user/hive/warehouse/....问题分析在hive中执行show partitions test，查看test表对应的所有分区。看了下之前添加过的所有分区，发现有个分区对应的hdfs目录不存在了（...

[Hive]使用HDFS文件夹数据创建Hive表分区

weixin_34273046的博客

12-27

587

描写叙述： Hive表pms.cross_sale_path建立以日期作为分区，将hdfs文件夹/user/pms/workspace/ouyangyewei/testUsertrack/job1Output/crossSale上的数据，写入该表的$yesterday分区上表结构： hive -e " set mapred.job.queue.name=pms; drop tab...

Spark SQL 读取Hive数据报错:The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the C

muyingmiao的专栏

10-14

884

将Hive的配置文件拷贝到Spark中后，启动spark-shell scala> spark.sql("show databases").show 报错如下 org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mys...

spark 访问hive表报错

eyeofeagle的博客

10-25

1780

spark访问hive表：在spark/conf目录下：引入hive配置文件 ln -sf /soft/hive/conf/hive-site.xml /soft/spark/conf/ 错误1： Hive Schema version 1.2.0 does not match metastore’s schema version 2.3.0 原因： hive版本不一致，查看hive在mys...

sparkSQL 集成hive异常问题解决

linux_ja的专栏

06-15

3630

1、报：Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient 是由于元数据默认到derby中找，所以提供mysql的解决：在spar

spark sql 查看分区_Spark-sql读取hive分区表限制分区过滤条件及限制分区数量

weixin_39974882的博客

12-19

2337

问题描述在开发过程中使用spark去读取hive分区表的过程中(或者使用hive on spark、nodepad开发工具)，部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题解决办法1、自定义规则CheckPartitionTable类，实现Ruletype ExtensionsBuilder = SparkSessionExtensio...

spark写hive分区表，文件move失败

stonehigher125的专栏

04-23

905

1.写分区文件失败错误日志出现org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.hive.ql.metadata.HiveException: Load Data failed for hdfs://***:8020/warehouse/tablespace/managed/hive/***/.hive-staging_hive_ 20

sparkStreaming读取kafka写入hive分区表

W_Little_lion的博客

09-20

1581

sparkStreaming读取kafka写入hive分区表使用版本： hadoop-3.1.3，hive-3.1.2。开始这个spark不是很熟悉，但是项目要用到，这就要临阵磨枪了。开始写入hive的时候一直在报一个错误，的不是很懂，就是说我没有 .enableHiveSupport() 我就很蒙我明明有用到，但是他就是说我没用到。不多说了上代码。 def test:Unit={ //设置用户名 System.setProperty("HADOOP_USER_NAME", "root") 写配置信息

hive下的hdfs文件删除了， spark做汇总，报InvalidInputException: Input path does not exist

dengwei_dw的专栏

06-05

516

删除了hive的分区文件，但是hive的分区未删除，导致spark汇总报错。解决办法： show partitions t_name; hadoop fs -ls /user/hive/warehouse/t_name/end_day=xxx/end_time_hour=xxx 做比较，将删除的文件对应的分区删除。 alter table t_name drop partition (end_day=20200604,end_time_hour=0); 重新执行spark汇总即可。 ..

sparkSQL读取hive分区表的问题追踪

Format的专栏

05-26

6736

示例读取的table格式为parqut格式，异常堆栈信息： java.lang.OutOfMemoryError: GC overhead limit exceeded at java.lang.StringBuilder. at java.io.ObjectStreamClass.getClassSignature(ObjectStreamClass.java:1458) at java.

Spark读Hive分区表报错：Caused by: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist

SunnyRivers

10-28

1982

第一个

Hive建立表并加载分区后，查询数据报错的问题

qq_43193797的博客

08-14

1590

如图，hive报以下错误 Error: java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.UnsupportedOperationException: Cannot inspect org.apache.hadoop.io.LongWritable (state=,code=0) ...

hive关于数据倾斜的问题

KingLionfzj的博客

11-03

346

1.hive为什么会生数据倾斜（1）不同数据类型关联产生数据倾斜如：用户表中user_id字段为int，log表中user_id字段为string类型，当按照user_id进行两个表的join操作时。解决方式是：把数字类型转换成字符串类型 select * from users a left outer join logs b on a.user_id=cast(b.user_id as string) （2）空值产生的数据倾斜的问题生产环境中经常会有大量空值数据进入到一个reduce.

hive 之简单查询报错

weixin_30364325的博客

04-05

171

报错如下：查看表数据存储的位置，文件情况发现hdfs 下该.gz压缩文件出现问题重新导入 load data local inpath '/home/dp/db_apptrack_mobile_product.csv' overwrite into table stage.mobile_product_temp; 转载于:https://www.cnblogs.com/s...

hive 常见错误

sun

12-08

3771

由于Hive没有hdfs:/tmp目录的权限，赋权限即可： hadoop dfs -chmod -R 777 /tmp

HIVE常见的错误

weixin_34062329的博客

01-06

174

2019独角兽企业重金招聘Python工程师标准>>> ...

HIVE删除分区表FAILED: Execution Error, return code 1... MetaException(message:Invalid partition key & val

越疆

01-10

3203

HIVE删除分区表drop table tbl_name时报错: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Invalid partition key & values; keys [year, month, day, ...

spark写入hive分区表