spark读写相同路径文件

最新推荐文章于 2022-07-28 19:56:41 发布

楓尘林间

最新推荐文章于 2022-07-28 19:56:41 发布

阅读量1.2k

点赞数

分类专栏： Hive Spark

本文链接：https://blog.csdn.net/bowenlaw/article/details/108081718

版权

Spark 同时被 2 个专栏收录

96 篇文章 1 订阅

订阅专栏

Hive

5 篇文章 0 订阅

订阅专栏

有些情况下，需要spark读取A路径文件，处理后再存入A路径,如不注意，会报错！！！

1.读写相同的HIVE表

spark读取hive表：

      // 原始数据
      final_data = spark.sql(s"select * from ${userid}.${datasetid}")
       
	  .....对数据操作.....

不能 select 后在overwrite同一张表:

错误的： Spark报错

final_data.write.mode("overwrite").saveAsTable(s"${userid}.${datasetid}")

正确方法：

用临时表先进行保存，再删除临时表：

      //将结果保存在临时表中
      final_data.write.mode(SaveMode.Overwrite).saveAsTable(s"${userid}.tmp_tab")
      //将临时表覆盖结果表
      spark.table(s"${userid}.tmp_tab").write.mode("overwrite").saveAsTable(s"${userid}.${datasetid}")
      // 删除临时表
      spark.sql(s"DROP TABLE IF EXISTS ${userid}.tmp_tab")

2.读写HDFS上相同路径

      var final_data = spark.read.parquet(hdfspath)

       ......对数据操作.....

不能直接写入相同路径

错误：

      final_data.write.mode(SaveMode.Overwrite).parquet(hdfspath)

Spark报错：
Caused by: java.io.FileNotFoundException: File does not exist…

正确方法：

先对数据进行cache或者persist

      final_data = final_data.persist()
      // final_data = final_data.cache()
      final_data.write.mode(SaveMode.Overwrite).parquet(hdfspath)

楓尘林间

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
spark读写相同路径文件

有些情况下，需要spark读取A路径文件，处理后再存入A路径,如不注意，会报错！！！1.读写相同的HIVE表spark读取hive表： // 原始数据 final_data = spark.sql(s"select * from ${userid}.${datasetid}") .....对数据操作..... 不能 select 后在overwrite同一张表:错误的： Spark报错final_data.write.mode("overwr
复制链接

扫一扫

专栏目录