Spark 报错：Lost task 0.0 in stage 1.0 (TID 2, xxx, executor 0): java.io.FileNotFoundExceptio

最新推荐文章于 2023-05-26 17:52:15 发布

路飞DD

最新推荐文章于 2023-05-26 17:52:15 发布

阅读量7.5k

点赞数 1

分类专栏：大数据 Spark Hadoop Spark 文章标签： Spark Spark 报错 Lost task 0.0 in stage 1.0 ileNotFoundException

本文链接：https://blog.csdn.net/weixin_37417954/article/details/93885451

版权

大数据同时被 3 个专栏收录

25 篇文章 0 订阅

订阅专栏

Spark

21 篇文章 0 订阅

订阅专栏

Spark

21 篇文章 0 订阅

订阅专栏

-- 昨夜西风凋碧树，独上高楼，望尽天涯路

问题描述

在 Spark 集群中读取本地文件出现如下错误：

Lost task 0.0 in stage 1.0 (TID 2, xxxxx, executor 0): java.io.FileNotFoundException: File file:/root/pepole.json does not exist
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.org$apache$spark$sql$execution$datasources$FileScanRDD$$anon$$readCurrentFile(FileScanRDD.scala:127)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:177)
	at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:101)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$13$$anon$1.hasNext(WholeStageCodegenExec.scala:636)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:255)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:247)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala:836)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala:836)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
	at org.apache.spark.scheduler.Task.run(Task.scala:121)
	at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:408)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)

问题原因

这是由于被读取的文件必须存放在 Spark 集群的每一个 Worker 节点

解决方案

1）拷贝文件到每一个 Worker 节点

2）从 HDFS 中读取

路飞DD

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark 报错：Lost task 0.0 in stage 1.0 (TID 2, xxx, executor 0): java.io.FileNotFoundExceptio

-- 昨夜西风凋碧树，独上高楼，望尽天涯路问题描述在 Spark 集群中读取本地文件出现如下错误：Lost task 0.0 in stage 1.0 (TID 2, xxxxx, executor 0): java.io.FileNotFoundException: File file...
复制链接

扫一扫

专栏目录