【spark】wordCout的8种姿态


前言

wordCount意为一段句子中相同单词的数量进行累加,最后打印所有单词和出现的数量。这看似是一个很简单的逻辑,原以为wordCount只是spark中的一个“hello world”,没想到spark其实就是做的wordCount,比如某段实践某类型数据的汇总 ,因此,在这里列举几个wordCount的方式,供大家参考。


1、groupBy

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setMaster("local[*]").setAppName("test")
    var sc =  new SparkContext(sparkconf);
    val data = sc.makeRDD(List("hello spark","hello java"))
    val value = data.map(_.split(" "))
      .flatMap(num => num)
      .groupBy(num => num).mapValues(iters => {
      iters.size;
    })
    value.collect().foreach(println)
    sc.stop();
  }

输出:

(spark,1)
(hello,2)
(java,1)

2、groupByKey

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setMaster("local[*]").setAppName("test")
    var sc =  new SparkContext(sparkconf);
    val data = sc.makeRDD(List("hello spark","hello java"))
    val value = data.map(_.split(" "))
      .flatMap(num => num)
        .map(num=>(num,1))
      .groupByKey().mapValues(iters => {
      iters.size;
    })
    value.collect().foreach(println)
    sc.stop();
  }

(spark,1)
(hello,2)
(java,1)

3、reduceByKey

spark的RDD方法中有reduceByKey这个聚合方法。通过reduceByKey可很快实现wordCount

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setMaster("local[*]").setAppName("test")
    var sc =  new SparkContext(sparkconf);
    val data = sc.makeRDD(List("hello spark","hello java"))
    val value = data.map(_.split(" "))
  .flatMap(num => num)
  .map(num=>(num,1)).reduceByKey(_+_);
    value.collect().foreach(println)
    sc.stop();
  }

输出:

(spark,1)
(hello,2)
(java,1)

4、aggregateByKey

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setMaster("local[*]").setAppName("test")
    var sc =  new SparkContext(sparkconf);
    val data = sc.makeRDD(List("hello spark","hello java"))
      val value = data.map(_.split(" "))
    .flatMap(num => num)
    .map(num=>(num,1)).aggregateByKey(0)(_+_,_+_);
    value.collect().foreach(println)
    sc.stop();
  }

输出:

(spark,1)
(hello,2)
(java,1)

5、foldByKey

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setMaster("local[*]").setAppName("test")
    var sc =  new SparkContext(sparkconf);
    val data = sc.makeRDD(List("hello spark","hello java"))
      val value = data.map(_.split(" "))
    .flatMap(num => num)
    .map(num=>(num,1)).foldByKey(0)(_+_);
    value.collect().foreach(println)
    sc.stop();
  }

(spark,1)
(hello,2)
(java,1)

6、combineByKey

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setMaster("local[*]").setAppName("test")
    var sc =  new SparkContext(sparkconf);
    val data = sc.makeRDD(List("hello spark","hello java"))
      val value = data.map(_.split(" "))
    .flatMap(num => num)
    .map(num=>(num,1)).combineByKey(
      d=>d,
   (x:Int,y)=>x+y,
   (x:Int,y:Int)=>x+y
      )
    value.collect().foreach(println)
    sc.stop();
    }

7、countByKey

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setMaster("local[*]").setAppName("test")
    var sc =  new SparkContext(sparkconf);
    val data = sc.makeRDD(List("hello spark","hello java"))
    val value = data.map(_.split(" "))
    .flatMap(num => num)
    .map(num=>(num,1)).countByKey();
     value.foreach(println)
    sc.stop();
  }

输出:

(spark,1)
(hello,2)
(java,1)

8、countByValue

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setMaster("local[*]").setAppName("test")
    var sc =  new SparkContext(sparkconf);
    val data = sc.makeRDD(List("hello spark","hello java"))
    val value = data.map(_.split(" "))
    .flatMap(num => num).countByValue();
     value.foreach(println)
    sc.stop();
  }
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叁滴水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值