我有一个MapReduce任务,我想从我的
java代码在Spark YARN集群上运行.另外,我想在我的java代码中检索reduce结果(字符串和数字对,元组).就像是:
// I know, it's wrong setMaster("YARN"), but just to describe what I want.
// I want to execute job ob the cluster.
SparkConf sparkConf = new SparkConf().setAppName("Test").setMaster("YARN");
JavaSparkContext sc = new JavaSparkContext(sparkConf);
JavaRDD input = sc.parallelize(list);
// map
JavaPairRDD results = input.mapToPair(new MapToPairExample());
// reduce
String max = results.max(new MyResultsComparator())._1();
如果我将master设置为local,local []或spark:// master:7707,它就可以工作.
所以问题是:我能以某种方式对纱线集群做同样的事情吗?