Spark on Yarn上实现WordCount程序

最新推荐文章于 2021-11-07 21:24:59 发布

Programmer_Story

最新推荐文章于 2021-11-07 21:24:59 发布

阅读量1.1k

点赞数 1

分类专栏：基础学习文章标签： spark yarn 分布式

本文链接：https://blog.csdn.net/sinat_24850467/article/details/42461419

版权

基础学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、WordCount程序代码

package com.first

import org.apache.spark.SparkContext
import SparkContext._
import org.apache.spark.SparkConf
object WordCount {
def main(args: Array[String]) { 
    if (args.length != 2){ 
      println("usage is org.test.WordCount  <input> <output>") 
      return 
    } 
    val conf = new SparkConf()
    val sc = new SparkContext(conf)
    //val sc = new SparkContext(args(0), "WordCount", 
   // System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR"))) 
    val textFile = sc.textFile(args(0)) 
    val result = textFile.flatMap(line => line.split("\\s+"))
        .map(word => (word, 1)).reduceByKey(_ + _) 
    result.saveAsTextFile(args(1)) 
      //result.foreach(f=>println)
        sc.stop
  } 
}

2、通过spark-submit提交作业

在终端进去spark的bin目录下执行(多种执行方式可以参考点击打开链接)

./spark-submit --name WordCount1 --class com.first.WordCount --master yarn-cluster /home/hadoop/wangqiujie/wordcount2.jar wanginput/word.txt （此为相对路径）wangoutput（此为相对路径）