spark 版 WordCount 程序分析

目录

  • 1、开发环境 idea+maven+spark
  • 2、程序代码
  • 3、集群提交

1、开发环境 idea+maven+spark

使用idea,创建maven工程,使用scala 编写程序,打包jar并运行在集群中

2、程序代码

package cn.learn.spark

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WC")
    val sc = new SparkContext(conf)
    sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false ).saveAsTextFile(args(1))
    sc.stop()
  }
}

3、集群提交

进入spark的bin目录,提交代码如下:

./spark-submit   \

--master spark://hbase1:7077   \                      ------->  spark集群的主节点

--class cn.learn.spark.WordCount   \               ------->  wordCount 程序入口main方法

--total-executor-cores 2   \                               ------->  指定执行器总核数

--executor-memory 512m   \                            ------->  指定每个核占用内存

/home/hadoop/helloSpark-1.0.jar   \                ------->  指定程序jar的位置

hdfs://hbase1:9000/wc    \                               ------->  指定程序参数一:输入集合

hdfs://hbase1:9000/out2                                  ------->  指定程序参数二:输出集合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值