sparksql踩坑

最新推荐文章于 2024-03-16 17:09:02 发布

chatGPT！

最新推荐文章于 2024-03-16 17:09:02 发布

阅读量2.3k

点赞数 1

分类专栏：大数据开发文章标签： spark 大数据

本文链接：https://blog.csdn.net/neymar1204/article/details/116663901

版权

5 篇文章 0 订阅

订阅专栏

今天使用sparksql时遇到如下问题

It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName

查阅了网上资料说是由于sparkSession封装在actor中，每个actor都有自己独占的sparkSession，有些sql是保存数据到hive和hdfs上，但由于是一个多线程模型，如果不加任何干预的情况下，actor1跑出来的数据通过actor2读的时候会抛出异常

解决方式是：

// spark is an existing SparkSession
spark.catalog.refreshTable(“my_table”)

但是加上之后并没有解决，最后发现是输出路径和输入路径相同导致overwrite输入文件

result_df.coalesce(1).write.mode(“overwrite”).csv(“path”)

将输出路径更改即可

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注