Eclipse调用Spark on yarn问题及解决

最新推荐文章于 2022-01-06 19:02:47 发布

fansy1990

最新推荐文章于 2022-01-06 19:02:47 发布

阅读量5.9k

点赞数 3

分类专栏： spark on yarn

本文链接：https://blog.csdn.net/fansy1990/article/details/52119206

版权

本文介绍了在使用Eclipse调用Spark on Yarn时遇到的问题，包括软件版本配置、集群环境和任务描述。在Windows 7环境下，Eclipse与Scala、Spark、Hadoop等软件版本不兼容导致了问题的产生。通过详细步骤和代码描述，作者分享了解决这一问题的方法，旨在帮助读者避免相同困扰。

摘要由CSDN通过智能技术生成

软件版本：

Spark1.4.1 ，Hadoop2.6，Scala2.10.5 , Eclipse4.5.1，intelliJ IDEA14，JDK1.7

集群环境：

windows7 （包含JDK1.7，Eclipse4.5.1，IntelliJ IDEA14）；

centos6.6虚拟机（Hadoop分布式集群，JDK1.7）node1：NameNode/ResourceManager ; node2: SecondaryNameNode ; node3/node4: DataNode/NodeMananger

node1->192.168.0.31 ;（其他节点ip以此类推）

任务描述：

实现Eclipse直接调用使用IDEA打包好的jar包，调用Spark相关算法；

步骤及代码描述：

1. 使用IDEA打包相关算法jar包，如Spark-als.jar ，在算法里面不需要设置spark master，如下代码：

val conf = new SparkConf().setAppName("train ALS Model ")
    val sc = new SparkContext(conf)
    val ratings = sc.textFile(input).map{

2. 在Eclipse中新建Java Project，并把Spark-als.jar 以及 spark-assembly-1.4.1-hadoop2.6.0.jar加入classpath；（其中，assembly的jar包直接解压后的lib包中获取，不需要做任何修改）

3. 新建demo.Utils 类，如下：

package demo;

import org.apache.hadoop.conf.Configuration;
import org.apache.spark.SparkConf;
import org.apache.spark.deploy.yarn.Client;
import org.apache.spark.deploy.yarn.ClientArguments;

public class Utils {
	p