将Spark部署到Hadoop YARN上

最新推荐文章于 2024-02-17 19:11:27 发布

taotao5309

最新推荐文章于 2024-02-17 19:11:27 发布

阅读量677

点赞数

分类专栏： spark 文章标签： Spark

本文链接：https://blog.csdn.net/taohang1990/article/details/23948581

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

用的是Hadoop2.2.0

Spark0.9.1

新版本的spark中spark-class是在bin目录下

scala还是可以用scala2.9.3版本

下面是wordcount代码，参照董西城的博客

 
  import 
   org.apache.spark. 
  _ 
 
 
  import 
   SparkContext. 
  _ 
 
 
  object 
   WordCount { 
 
 
     
  def 
   main(args 
  : 
   Array[String]) { 
 
 
       
  if 
   (args.length ! 
  = 
   3 
   ){ 
 
 
         
  println( 
  "usage is org.test.WordCount <master> <input> <output>" 
  ) 
 
 
         
  return 
 
 
       
  } 
 
 
       
  val 
   sc  
  = 
   new 
   SparkContext(args( 
  0 
  ),  
  "WordCount" 
  , 
 
 
       
  System.getenv( 
  "SPARK_HOME" 
  ), Seq(System.getenv( 
  "SPARK_TEST_JAR" 
  ))) 
 
 
       
  val 
   textFile  
  = 
   sc.textFile(args( 
  1 
  )) 
 
 
       
  val 
   result  
  = 
   textFile.flatMap(line  
  = 
  > line.split( 
  "\\s+" 
  )) 
 
 
           
  .map(word  
  = 
  > (word,  
  1 
  )).reduceByKey( 
  _ 
   +  
  _ 
  ) 
 
 
       
  result.saveAsTextFile(args( 
  2 
  )) 
 
 
     
  } 
 
 
  }