Scala之WordCount

最新推荐文章于 2022-05-07 14:52:57 发布

维维weiwei

最新推荐文章于 2022-05-07 14:52:57 发布

阅读量432

点赞数

分类专栏： Scala语言

本文链接：https://blog.csdn.net/tangshiweibbs/article/details/69815668

版权

Scala语言专栏收录该内容

18 篇文章 0 订阅

订阅专栏

package com.uplooking.bigdata.core.p1

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
* Scala版本的一个WordCount程序
*       master为yarn
*/
object SparkLocalWCApp {
def main(args: Array[String]): Unit = {
    /**
      * 1、创建SparkConf[当前Application运行所依赖的配置信息]
      */
    val conf:SparkConf = new SparkConf().setMaster("local").setAppName("SparkLocalWCApp")

    /**
      * 2、基于SparkConf，创建SparkContext
      */
    val sc:SparkContext = new SparkContext(conf)

    /**
      * 3、通过SparkContext，加载数据并创建RDD
      */
    val linesRDD:RDD[String] = sc.textFile("E:/test/spark/core/hello.txt")

    /**
      * 4、对linesRDD中的每一行数据，将其拆分成独立的单词
      */
    val wordsRDD:RDD[String] = linesRDD.flatMap(line => line.split(" "))

    /**
      * 5、将wordsRDD中的每一单词，转换为一个Tuple2[String, Int]
      */
    val pairRDD:RDD[(String, Int)] = wordsRDD.map(word => new Tuple2[String, Int](word, 1))

    /**
      * 6、按照pairRDD中的key，对数据进行聚合
      */
    val retRDD:RDD[(String, Int)] = pairRDD.reduceByKey((v1, v2) => merge(v1, v2))

    /**
      * 通过一个action动作，触发上述transformation转换算子的执行
      *
      */
    retRDD.foreach(t => println(t))

//    sc.textFile("E:/test/spark/core/hello.txt").flatMap(line => line.split(" ")).map((_, 1)).reduceByKey(_+_).foreach(println)

}

def merge(v1:Int, v2:Int):Int = v1 + v2
}

维维weiwei

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scala之WordCount

package com.uplooking.bigdata.core.p1 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * Scala版本的一个WordCount程序 * master为yarn */ obj
复制链接

扫一扫