Spark提交代码到集群中运行

一、将Spark代码提交到集群:

        1、将setMaster注释:

        2、注意输入和输出的路径,必须是HDFS存在的某个路径

        3、使用maven将代码打成jar包并上传

        4、构建提交命令(使用的是cluster):

spark-submit --master yarn --deploy-mode cluster --class com.spark.core.WordCountDemo01  spark-1.0.jar


import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object WordCountDemo01 {
  def main(args: Array[String]): Unit = {
    //第一个代码:spark:wordcount
    //构建Spark的配置文件
    val conf: SparkConf = new SparkConf()
    //配置spark的运行模式
    //conf.setMaster("local")
    //配置spark的任务名称
    conf.setAppName("WordCountDemo01")
    //搭建spark的环境,此处的命名方式需要确定sc表示的时spark的运行环境
    val sc: SparkContext = new SparkContext(conf)
    val wordsRDD: RDD[String] = sc.textFile("/data/words.txt")
    val words1RDD: RDD[String] = wordsRDD.flatMap(kv => kv.split(","))
    val words2RDD: RDD[(String, Iterable[String])] = words1RDD.groupBy(word => word)
    val words3RDD: RDD[String] = words2RDD.map(kv => s"${kv._1},${kv._2.size}")
    val system: FileSystem = FileSystem.get(new Configuration())


    /**
     * 可以使用HDFS的Java API提前将目录删除避免出错
     */


    if(system.exists(new Path("/data1"))){
    system.delete(new Path("/data1"),true)
    }
    words3RDD.saveAsTextFile("/data1/")
    

  }

}

        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值