Dl4j使用Spark分布式训练指定CPU后端训练

最新推荐文章于 2023-03-25 23:07:39 发布

寒沧

最新推荐文章于 2023-03-25 23:07:39 发布

阅读量1.5k

点赞数

分类专栏： deeplearning4j DeepLearning4j

本文链接：https://blog.csdn.net/u011669700/article/details/79299968

版权

本文介绍了如何在没有GPU的Spark集群上，使用Dl4j进行分布式训练。当应用的pom文件已设置backend为CPU，但运行时仍尝试寻找CUDA后端导致错误。解决方案是通过设置环境变量`DL4J_USE_CPU`为`true`，并确保`DL4J_BACKEND`优先级高于`CUDA`, 从而确保所有worker节点都使用CPU进行训练。此方案由群友赵彦辉提出，并提供了相关文档链接。" 125301097,14151198,使用LiveData处理Android消息显示与页面跳转,"['Android开发', 'Android UI', 'LiveData', '蓝牙通信']

摘要由CSDN通过智能技术生成

Dl4j使用Spark分布式训练指定CPU后端训练

问题描述

1、打包dl4j应用程序，使用spark-submit在spark集群上分布式运行；
示例提交命令：

spark-submit --class cn.nd4jonSpark.Nd4jTest  
    --master spark://storm6:7077  
    --deploy-mode client  
    --driver-memory 4g 
    --executor-memory 2g hdfs://ns1/spark_lib/Nd4jTestOnMllib-0.0.1-SNAPSHOT.jar > ../logs/err.log