Spark中使用RDD算子GroupBy做词频统计的方法

最新推荐文章于 2024-10-09 10:14:53 发布

程序终结者

最新推荐文章于 2024-10-09 10:14:53 发布

阅读量803

点赞数

分类专栏： Scala 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_31412425/article/details/132147803

版权

Scala 专栏收录该内容

2 篇文章

订阅专栏

测试文件及环境

测试文件在本地D://tmp/spark.txt，Spark采用Local模式运行，Spark版本3.2.0，Scala版本2.12，集成idea开发环境。

hello
world
java
world
java
java

实验代码

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object GroupBy {
  def main(args: Array[String]): Unit = {
  	// 创建Spark执行环境
    val sparkConf: SparkConf =
      new SparkConf().setMaster("local").setAppName("GroupBy")
    // 新建会话
    val sc = new SparkContext(sparkConf)
	// 读取本地文件到RDD
    val rdd: RDD[String] = sc.textFile("D://tmp/spark.txt")
    // 对rdd做map映射,返回(hello,1)...
    val rdd2: RDD[(String, Int)] = rdd.map(v => {
      val arr: Array[String] = v.split("\t")
      (arr(0), 1)
    })
	// 打印map映射结果
    rdd2.foreach(v=>println(v))

	// 对rdd2进行groupBy操作
    val rdd3: RDD[(String, Iterable[(String, Int)])] = rdd2.groupBy(v => v._1)
    // 遍历打印最终结果
    rdd3.map(v => (v._1, v._2.size)).foreach(v => println(v))
	//结束Spark会话
    sc.stop()
  }
}

实验结果

打印map映射结果

(hello,1)
(world,1)
(java,1)
(world,1)
(java,1)
(java,1)

(hello,1)
(java,3)
(world,2)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序终结者

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Spark中groupBy算子详解介绍

CSDN 精品推荐

08-16

954

这个算子在Spark中非常常见，常常在一些任务场景中我们需要对数据按照指定的key进行分组，然后每组的数据执行进一步的逻辑。

Spark RDD的groupBy算子和groupBykey算子的对比

热门推荐

stevekangpei的博客

07-24

1万+

Spark编程之基本的RDD算子之cogroup，groupBy，groupByKey 1) cogroup [Pair], groupWith [Pair] 首先来看一下它的api。def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] def cogroup[W](other: RDD[(K, W)], n

SparkRDD算子--groupBy算子

寒暄的博客

07-30

3458

语法 val newRdd = olodRdd.groupBy(func) 源码 def groupBy[K](f : scala.Function1[T, K])(implicit kt : scala.reflect.ClassTag[K]) : org.apache.spark.rdd.RDD[scala.Tuple2[K, scala.Iterable[T]]] = { /* compiled code */ } 作用分组，按照传入函数的返回值进行分组。将相同的key对应的值放入一个迭代器。例

Spark RDD中Transformation的groupBy、partitionBy、cogroup详解

snail_gesture的博客

11-12

5251

先对每个RDD中的数据进行分组，如： V1，V2会分为一组，形成K，依次类推。对RDD进行分区操作，如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区，否则会生成ShuffleRDD. 把相同K，后面的V合并成一个集合。

使用Spark RDD算子实现经典实战案例: 热门中文热词频Top10统计数据分析案例

qq_55006020的博客

10-09

534

经典实战案例: 热门中文热词频Top10统计数据分析案例详细步骤与实现过程

【Spark计算引擎----第二篇（RDD）：一篇文章带你清楚什么是RDD？RDD的概念，RDD的特性，怎么创建一个RDD，RDD的算子】

书生的技术分享

08-02

1477

RDD的概念，RDD的特性，怎么创建一个RDD，RDD的算子等等！！！RDD是一种弹性分布式数据集合是spark中最基本的数据类型，它提供了容错能力和并行处理的能力。RDD（Resilient Distributed Dataset）弹性分布式数据集合，是Spark中最基本的数据抽象结构，代表一个不可变（只读）、可分区、里面的元素可并行计算的集合。是Spark中的一种数据类型，管理spark的内存数据。

Spark基础（RDD）(常用算子)

weixin_43020373的博客

12-11

2994

什么是RDD RDD 是 Spark 的计算模型。RDD（Resilient Distributed Dataset）叫做弹性的分布式数据集合，是 Spark 中最基本的数据抽象，它代表一个不可变、只读的，被分区的数据集。操作 RDD 就像操作本地集合一样，有很多的方法可以调用，使用方便，而无需关心底层的调度细节。 RDD的三种创建形式集合并行化创建（通过 scala 集合创建） sca...

Spark RDD案例：分组排行榜

m0_59687371的博客

06-23

314

分组求TopN是大数据领域常见的需求，主要是根据数据的某一列进行分组，然后将分组后的每一组数据按照指定的列进行排序，最后取每一组的前N行数据。预备工作：启动集群的HDFS与Spark 将成绩文件 - 上传到HDFS上目录设置项目信息（项目名、保存位置、组编号、项目编号）将目录改成目录在文件里添加依赖与Maven构建插件（三）创建日志属性文件在资源文件夹里创建日志属性文件 - （四）创建分组排行榜单例对象在包里创建单例对象...

Spark大数据处理学习笔记

09-18

* 掌握 RDD 算子：了解 RDD 的 map、filter、reduce、groupby 等算子，并了解其使用场景。三、RDD 的分区 * 掌握 RDD 的分区：了解 RDD 的分区机制，了解如何使用 coalesce 和 repartition 等方法对 RDD 进行分区...

（转载）Spark算子：RDD键值转换操作(3)–groupBy、keyBy、groupByKey、reduceByKey、reduceByKeyLocally

moose_killer的博客

03-17

1298

groupBy groupBy(function) function返回key，传入的RDD的各个元素根据这个key进行分组 def main(args: Array[String]): Unit = { //默认分区12个 val sc = new SparkContext(new SparkConf().setMaster("local").setAppName("test").set("spark.default.parallelism", "12")) var rdd1 = sc.

Spark系列之(一)——SparkRDD

weixin_43676010的博客

06-26

508

SparkCore RDD的初学习

Spark RDD/Core 编程 API入门系列之map、filter、textFile、cache、对Job输出结果进行升和降序、union、groupByKey、join、reduce、look

sysmedia的博客

04-11

1315

1、以本地模式实战map和filter 2、以集群模式实战textFile和cache 3、对Job输出结果进行升和降序 4、union 5、groupByKey 6、join 7、reduce 8、lookup 1、以本地模式实战map和filter 以local的方式，运行spark-shell。 spark@Sp

spark学习-rdd算子

qq_52772669的博客

07-13

906

rdd算子的总结

RDD的转换算子groupBy详解

yqqの博客

05-24

510

【代码】RDD的转换算子groupBy详解。

Spark学习【Spark-Core：RDD】

MaseratiD的博客

06-25

230

Spark计算框架三大数据结构： RDD：弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量 RDD 是最基本的数据处理模型。它代表一个弹性的、不可变的、可分区的、内部元素可并行计算的数据集。弹性存储：内存与磁盘的自动切换容错：数据丢失可自动恢复计算：计算出错的重试机制分片：可根据需要重新分片不可变：RDD中封装了计算逻辑，不可改变。需通过产生新的RDD，在里面封装计算逻辑。可分区、并行计算数据集：RDD封装计算逻辑，不保存数据 RDD核心属性：

spark笔记（二）之RDD常用算子

weixin_44604159的博客

05-16

1438

大家好！下面是我在疫情假期期间学习的saprk算子笔记，刚刚用了一下午的时间把它整理出来分享给大家！码字实属不易如果对你有帮助，记得点赞呦！文章目录一.spark行动算子二.spark单value类型三.spark双value类型四.spark算子KV类型一.spark行动算子 1.reduce( f: (T, T) => T )：通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。 val list1: RDD[Int] = sc.makeRDD(1 to 10) val

Spark RDD实现分组排行榜

梁辰兴的博客

06-06

934

使用Spark RDD的groupByKey()算子可以对(key, value)形式的RDD按照key进行分组，key相同的元素的value将聚合到一起，形成(key, value-list)，将value-list中的元素降序排列取前N个即可。分组求TopN是大数据领域常见的需求，主要是根据数据的某一列进行分组，然后将分组后的每一组数据按照指定的列进行排序，最后取每一组的前N行数据。同一个学生有多门成绩，现需要计算每个学生分数最高的前3个成绩，期望输出结果如下所示。在控制台查看输出结果。

spark中使用RDD算子的主要技术原理

06-12

在Spark中使用RDD算子，其主要技术原理如下： 1. RDD的概念：RDD（Resilient Distributed Datasets）是Spark中的基本数据类型，它是一个可分区、可并行计算的数据集合，可以在集群中进行分布式处理。RDD可以通过...