spark 版 WordCount 程序分析

最新推荐文章于 2023-03-14 16:25:22 发布

字母的艺术

最新推荐文章于 2023-03-14 16:25:22 发布

阅读量306

点赞数

分类专栏： hadoop 大数据技术学习文章标签： spark wordcount idea maven

本文链接：https://blog.csdn.net/py_tamir/article/details/86567123

版权

hadoop 同时被 2 个专栏收录

47 篇文章 0 订阅

订阅专栏

大数据技术学习

31 篇文章 0 订阅

订阅专栏

1、开发环境 idea+maven+spark
2、程序代码
3、集群提交

1、开发环境 idea+maven+spark

使用idea，创建maven工程，使用scala 编写程序，打包jar并运行在集群中

2、程序代码

package cn.learn.spark

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WC")
    val sc = new SparkContext(conf)
    sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false ).saveAsTextFile(args(1))
    sc.stop()
  }
}

3、集群提交

进入spark的bin目录，提交代码如下：

./spark-submit \

--master spark://hbase1:7077 \ -------> spark集群的主节点

--class cn.learn.spark.WordCount \ -------> wordCount 程序入口main方法

--total-executor-cores 2 \ -------> 指定执行器总核数

--executor-memory 512m \ -------> 指定每个核占用内存

/home/hadoop/helloSpark-1.0.jar \ -------> 指定程序jar的位置

hdfs://hbase1:9000/wc \ -------> 指定程序参数一：输入集合

hdfs://hbase1:9000/out2 -------> 指定程序参数二：输出集合