spark如何解决文件不存在_spark常见问题处理

最新推荐文章于 2023-03-24 20:30:46 发布

玩音乐的铝孩纸

最新推荐文章于 2023-03-24 20:30:46 发布

阅读量1.6k

点赞数

文章标签： spark如何解决文件不存在

本文链接：https://blog.csdn.net/weixin_36448964/article/details/112887483

版权

本文介绍了Spark在运行过程中遇到的各类错误，如内存不足、GC Overhead Limit、StandbyException、读取文件异常等，并提供了详细的解决办法，包括调整内存参数、关闭GC限制、修改配置文件等。

摘要由CSDN通过智能技术生成

1、spark thriftserver报以下错误，其他诸如hive/sparksql等方式均正常

ERROR ActorSystemImpl: Uncaught fatal error from thread [sparkDriverActorSystem-akka.actor.default-dispatcher-379] shutting down ActorSystem [sparkDriverActorSystem]

java.lang.OutOfMemoryError: Java heap space

原因：thriftserver的堆内存不足

解决办法：重启thriftserver，并调大executor-memory内存(不能超过spark总剩余内存，如超过，可调大spark-env.sh中的SPARK_WORKER_MEMORY参数，并重启spark集群。

start-thriftserver.sh --master spark://masterip:7077 --executor-memory 2g --total-executor-cores 4 --executor-cores 1 --hiveconf hive.server2.thrift.port=10050 --conf spark.dynamicAllocation.enabled=false

如果调大了executor的内存,依旧报此错误,仔细分析发现应该不是executor内存不足,而是driver内存不足,在standalone模式下默认给driver 1G内存,当我们提交应用启动driver时,如果读取数据太大,driver就可能报内存不足。

在spark-defaults.conf中调大driver参数

spark.driver.memory 2g

同时在spark-env.sh中同样设置

export SPARK_DRIVER_MEMORY=2g

2、Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded

JDK6新增错误类型。当GC为释放很小空间占用大量时间时抛出。

在JVM中增加该选项 -XX:-UseGCOverheadLimit 关闭限制GC的运行时间(默认启用 )

在spark-defaults.conf中增加以下参数

spark.executor.extraJavaOptions -XX:-UseGCOverheadLimit

spark.driver.extraJavaOptions -XX:-UseGCOverheadLimit

3、spark 错误描述：

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby

原因：

NN主从切换时,spark报上述错误,经分析spark-defaults.conf配置参数spark.eventLog.dir写死了其中一个NN的IP,导致主从切换时，无法读日志。

另外，跟应用程序使用的checkpoint也有关系,首次启动应用程序时,创建了一个新的sparkcontext,而该sparkcontext绑定了具体的NN ip,

往后每次程序重启,由于应用代码【StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _)】将从已有checkpoint目录导入checkpoint 数据来重新创建 StreamingContext 实例。

如果 checkpointDirectory 存在，那么 context 将导入 checkpoint 数据。如果目录不存在，函数 functionToCreateContext 将被调用并创建新的 context。

故出现上述异常。

解决：

针对测试系统：

1、将某个NN固定IP改成nameservice对应的值

2、清空应用程序的checkpoint日志

3、重启应用后,切换NN,spark应用正常

4、获取每次内存GC信息

spark-defaults.conf中增加：

spark.executor.extraJavaOptions -XX:+PrintGC -XX:+PrintGCDetails -X