Spark_SparkOnHive_海豚调度跑任务写入Hive表失败解决

Matrix70

已于 2024-05-28 15:52:48 修改

阅读量496

点赞数 3

分类专栏： Spark_HBase_Hive_Oracle_2024 Hive 文章标签： spark hive 大数据

于 2024-05-28 15:52:08 首次发布

本文为博主原创文章，未经博主允许，不得转载！！

本文链接：https://blog.csdn.net/qq_52128187/article/details/139268578

版权

Hive 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

Spark_HBase_Hive_Oracle_2024

6 篇文章 0 订阅

订阅专栏

背景

前段时间我在海豚上打包程序写hive出现了一个问题，spark程序向hive写数据时，报了如下bug，

org.apache.spark.sql.AnalysisException:
The format of the existing table test.xx is 'HiveFileFormat' 
It doesn't match the specified format 'ParquetFIleFormat'

原因分析:

一开始我以为是我再hue上创建hive建的表，建表格式大致如下


create table if not exists test.xx (
id int,
name string
)
stored as PARQUET


/**
 *created by: Matrix70
 *blog:  https://blog.csdn.net/qq_52128187?type=blog
 */

后来我删了建，把分区也删了，parquet格式也加了，还是报这个问题，因此排除是建表问题

后来我看代码，入库的语句如下，死活写不进去

println("===========开始入库========")
userFrame.write.mode.("overwrite").saveAsTable("test.xx")

后来我换了一种写法，写进去了。

println("===========开始入库========")
userFrame.write.mode.("overwrite").insertInto("test.xx")

结论

如上，为什么会这样呢，我想了一下，

insertInto 方法将 DataFrame 的数据插入到一个已经存在的Hive表中，如果该表已经存在，则直接将数据插入到该表中，如果表不存在，则会抛出异常。如果表存在，但是表结构和DataFrame结构不匹配，则会抛出异常。

saveAsTable方法将DataFrame保存为一个Hive表。如果表不存在，则会自动创建该表，如果表已经存在，则会用DataFrame的数据覆盖该表中的数据。与insertInto方法不同的是，saveAsTable方法可以自动创建表，而不需要手动创建表。此外，saveAsTable方法还可以指定其他的存储格式，如ORC、Parquet等。

所以如果我不使用插入的方法，还是要使用 saveAsTable的话，就是这样写

println("===========开始入库========")
userFrame.write.mode("overwrite").format("parquet").saveAsTable("test.xx")

Matrix70

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark_SparkOnHive_海豚调度跑任务写入Hive表失败解决

方法将 DataFrame 的数据插入到一个已经存在的Hive表中，如果该表已经存在，则直接将数据插入到该表中，如果表不存在，则会抛出异常。如果表不存在，则会自动创建该表，如果表已经存在，则会用DataFrame的数据覆盖该表中的数据。前段时间我在海豚上打包程序写hive出现了一个问题，spark程序向hive写数据时，报了如下bug，后来我删了建，把分区也删了，parquet格式也加了，还是报这个问题，因此排除是建表问题。后来我看代码，入库的语句如下，死活写不进去。如上，为什么会这样呢，我想了一下，
复制链接

扫一扫

专栏目录