【Hive|Spark】spark写入hive表存储格式问题

郝少

已于 2022-10-14 19:15:06 修改

阅读量2.5k

点赞数 1

分类专栏： Hive技术总结 Spark技术经验大数据文章标签： hive spark 大数据

于 2022-10-14 17:46:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hyj_king/article/details/127324334

版权

大数据同时被 3 个专栏收录

161 篇文章 5 订阅

订阅专栏

Spark技术经验

72 篇文章 5 订阅

订阅专栏

Hive技术总结

24 篇文章 3 订阅

订阅专栏

目录

一、问题描述

二、原因分析

1、报错信息分析

三、解决办法

一、问题描述

spark经过转化的DF/DS，存储hive的一般写法为：

DF.write.format("orc").mode(SaveMode.Append).saveAsTable("default.student")

1、如果hive本身不存在此表，则会在hive自动创建对应的表进行数据存储。

2、如果hive中存在此表，则就会分为两种情况进行考虑。

第一种情况：存在的student表是使用spark写入hive程序自动创建得到的，则这种情况下可以正常写入。

DF.write.format("orc").mode(SaveMode.Append).saveAsTable("default.student")

第二种情况：存在的student表是使用hive命令创建得到的，这种情况下会报错。

create table student(name string,sex string) stored as orc;

报错信息为：

The format of the existing table default.student is `HiveFileFormat`. It doesn't match the specified format `OrcFileFormat`.;

二、原因分析

1、报错信息分析

The format of the existing table default.student is `HiveFileFormat`是说spark程序认为hive中使用命令创建的orc表，在它的眼中存储格式是HiveFileFormat。
It doesn't match the specified format `OrcFileFormat` 是说spark程序中要存储的student的dataFram是OrcFileFormat格式，与hive中创建表的存储格式不匹配。

2、思考

为什么明明在hive中使用命令创建的student表就是orc格式，却和spark程序中要存储指定的orc格式不匹配呢？

3、结论

在hive中使用命令创建的任何存储格式的表，在spark程序看来都是HiveFileFormat格式的表。
spark程序只认自己通过代码向hive创建各种存储格式的表并能与之对应匹配和存储数据。
对于使用hive命令创建过的表，spark对应匹配的指定格式统一为HiveFileFormat格式。

三、解决办法

对于hive命令已经创建过的任何存储格式的表，spark写入的时候统一使用如下写法：

DF.write.format("Hive").mode(SaveMode.Append).saveAsTable("default.student")

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Hive|Spark】spark写入hive表存储格式问题

The format of the existing table default.student is `HiveFileFormat`. It doesn't match the specified format `OrcFileFormat`.;
复制链接

扫一扫

专栏目录

郝少

CSDN认证博客专家 CSDN认证企业博客

码龄8年

大数据领域优质创作者

319: 原创

3868: 周排名

54万+: 总排名

59万+: 访问

: 等级

6204: 积分

2万+: 粉丝

369: 获赞

84: 评论

1474: 收藏

私信

关注

热门文章

分类专栏

最新评论

Spark虽然是基于内存的计算框架，但也会产生磁盘I/O开销
成仙: shufflewrite 阶段如果没有达到bucket溢写条件，还会落盘么？shuffleread 直接读取缓存数据么？
hive执行count(*):Stage-1 map = 0%, reduce = 0%
cleargy: yarn资源充足的情况下，stage map 0% 呢？
bootStrap-table之传参问题
取名和娶媳妇一样难: 大哥给看看哪里出现的问题为啥我用[code=java] [/code]@RequestMapping("selectCompleteOrder.do") @ResponseBody public String selectCompleteOrder(HttpServletRequest request){ String user_name = request.getParameter("user_name"); String user_level = request.getParameter("user_level"); System.out.println("selectCompleteOrderList接收到的参数="+user_name+user_level); return ""; } 这样接收不报错了，但是接收到的还是null呢 selectCompleteOrderList接收到的参数=nullnull
bootStrap-table之传参问题
取名和娶媳妇一样难: 我后台说他告诉我[org.springframework.web.bind解决。MissingServletRequestParameterException:方法参数类型的所需请求参数'user_name'不存在][code=java]@RequestMapping("selectCompleteOrder.do") @ResponseBody public String selectCompleteOrder(@RequestParam("user_level")String user_level,@RequestParam("user_name")String user_name){ System.out.println("selectCompleteOrderList接收到的参数="+user_name+user_level); return ""; } [/code] 请问我这到底是哪里出现了问题
redis模糊查询keys和scan的比较和用法
qq_40607754: 这里要纠正博主一个错误，“count 每次迭代所返回的元素数量”这句话是不对的。count是每次扫描的值，count 100表示扫描100个值，但返回的元素数量是不确定的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

郝少 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。