spark写入hive出现数据不一致

最新推荐文章于 2021-11-07 20:25:23 发布

Liu_Genie

最新推荐文章于 2021-11-07 20:25:23 发布

阅读量2.4k

点赞数 1

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mophistoliu/article/details/103326471

版权

Spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

记录一下这次遇到的诡异的坑，就是spark写入hive出现数据不一致的问题。

问题描述如下：
1. 使用spark创建dataframe，通过createOrReplaceTempView创建临时表
2. 检查创建的临时表，与DataFrame的数据保持一致
3. 执行插入hive分区的sql命令
```
insert
    overwrite table xxx.xxx partition (pt)
select
    field1,
    field2,
    ...,
    pt
from
    temp_tbl
```
4. 发现hive表结果与DataFrame的数据不一致
问题定位：

原来在hive创建外表的时候，没有指定保存格式，登陆S3发现其默认保存的格式为csv。由于有个字段里面的字符串格式比较复杂，导致在写入hive的时候出现窜位情况。
解决方案：

在创建hive外表时，指定存储格式为parquet(跟spark保持一致，当然也可以使用orc)
```
create external table xxx.xxx (
    xxx
)
partitioned by (pt string)
stored as parquet
location 's3://bucketname/path'
```
在研究解决方案的时候，发现spark的DataFrame有API可以直接写入hive, 这样就可以避免先创建临时表再用sql来写入了。
```
df.select("xxx").write.mode("overwrite").format("parquet").insertInto("xxx.xxx")
```
需要注意的是: spark告诉你不需要通过partitionBy的方式来指定分区，但是我们的DataFrame字段顺序需要与hive表保持一致，分区字段放在最后面

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
spark写入hive出现数据不一致

记录一下这次遇到的诡异的坑，就是spark写入hive出现数据不一致的问题。问题描述如下：使用spark创建dataframe，通过createOrReplaceTempView创建临时表检查创建的临时表，与DataFrame的数据保持一致执行插入hive分区的sql命令insert overwrite table xxx.xxx partition (pt)s...
复制链接

扫一扫

专栏目录

Liu_Genie CSDN认证博客专家 CSDN认证企业博客

码龄13年

37: 原创

8万+: 周排名

115万+: 总排名

5万+: 访问

: 等级

971: 积分

24: 粉丝

20: 获赞

11: 评论

114: 收藏

私信

关注

热门文章

分类专栏

工具 6篇
Algorithm 1篇
UVA解题报告 1篇
机器学习 10篇
SVM 1篇
SMO 1篇
Spark 6篇
杂 4篇
spark on yarn 2篇
hive 2篇
Zookeeper 1篇
DeepLearning 9篇
Paddle 4篇
MLflow 4篇
Databricks 2篇
Kafka 1篇
Structured Streaming 2篇

最新评论

Paddle的实时画图功能
Crown_F: 因为新版本paddle把这个删除了
Paddle的实时画图功能
光头强1024: 我的为啥显示的是No module named 'paddle.utils.plot'
Tensorflow之dataset介绍
Lmondi: 好的，谢谢~
Tensorflow之dataset介绍
Liu_Genie 回复 Lmondi: 有一个PR修复了这个问题，但是maven上面没有更新，所以需要自己打包。https://github.com/tensorflow/ecosystem/tree/master/spark/spark-tensorflow-connector
Tensorflow之dataset介绍
Lmondi: 你好，请问文中说的下列问题解决了吗？“pom文件中加入spark-tensorflow-connector依赖打包成jar包，保存结果的tfrecord并没有被压缩”

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。