目录
- 1、开发环境 idea+maven+spark
- 2、程序代码
- 3、集群提交
1、开发环境 idea+maven+spark
使用idea,创建maven工程,使用scala 编写程序,打包jar并运行在集群中
2、程序代码
package cn.learn.spark import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]) { val conf = new SparkConf().setAppName("WC") val sc = new SparkContext(conf) sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false ).saveAsTextFile(args(1)) sc.stop() } }
3、集群提交
进入spark的bin目录,提交代码如下:
./spark-submit \
--master spark://hbase1:7077 \ -------> spark集群的主节点
--class cn.learn.spark.WordCount \ -------> wordCount 程序入口main方法
--total-executor-cores 2 \ -------> 指定执行器总核数
--executor-memory 512m \ -------> 指定每个核占用内存
/home/hadoop/helloSpark-1.0.jar \ -------> 指定程序jar的位置
hdfs://hbase1:9000/wc \ -------> 指定程序参数一:输入集合
hdfs://hbase1:9000/out2 -------> 指定程序参数二:输出集合