Spark RDD操作API -- Actions

最新推荐文章于 2025-06-08 23:34:50 发布

taokeblog

最新推荐文章于 2025-06-08 23:34:50 发布

阅读量202

点赞数

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/taokeblog/article/details/103801860

版权

大数据专栏收录该内容

4 篇文章

订阅专栏

reduce(func)

对RDD进行聚合操作

>>> rdd = sc.parallelize([1, 2, 3, 4, 5])
>>> rdd.reduce(lambda x,y:x+y)
15

collect()

获取RDD的数据

>>> rdd = sc.parallelize([1, 2, 3, 4, 5])
>>> rdd.collect()
[1, 2, 3, 4, 5]

count()

获取RDD的数据个数

>>> rdd = sc.parallelize([1, 2, 3, 4, 5])
>>> rdd.count()
5

first()

获取RDD的第一个元素

>>> rdd = sc.parallelize([1, 2, 3, 4, 5])
>>> rdd.first()
1

take(n)

获取RDD的前n个元素

>>> rdd = sc.parallelize([1, 2, 3, 4, 5])
>>> rdd.take(3)
[1, 2, 3]

takeSample(withReplacement, num, [seed])

withReplacement：是否重复取样
num：取样数
seed：随机种子

>>> rdd = sc.parallelize([1, 2, 3, 4, 5])
>>> rdd.takeSample(True,4,12)
[5, 5, 5, 1]
>>> rdd.takeSample(False,4,12)
[1, 2, 5, 3]

takeOrdered(n, [ordering])

返回RDD中最小的k个元素

>>> rdd = sc.parallelize([1, 2, 3, 4, 5])
>>> rdd.takeOrdered(3)
[1, 2, 3]

saveAsTextFile(path)

saveAsTextFile会按照执行task的多少生成多少个文件，比如part-00000一直到part-0000n，n自然就是task的个数，亦即是最后的stage的分区数

>>> rdd = sc.parallelize([1, 2, 3, 4, 5])
>>> rdd.saveAsTextFile("/home/taoke/a.txt")

saveAsSequenceFile(path)

(Java and Scala)

saveAsObjectFile(path)

(Java and Scala)

countByKey()

统计key的出现次数

>>> rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
>>> sorted(rdd.countByKey().items())
[('a', 2), ('b', 1)]

foreach(func)

迭代每个rdd内的数据,并执行func函数

>>> rdd = sc.parallelize([1, 2, 3, 4, 5])
>>> rdd.foreach(f)
1
2
3
4
5

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

taokeblog

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

理解Spark-RDD共享变量 --- Shared Variables

杨鑫newlife的专栏

04-26

827

通常，当在远程集群节点上执行传递给Spark操作（例如map或reduce）的函数时，它将在函数中使用的所有变量的单独副本上工作。这些变量将复制到每台计算机，并且远程计算机上的变量的更新不会传播回驱动程序。支持跨任务的通用，读写共享变量效率低下。但是，Spark确实为两种常见的使用模式提供了两种有限类型的共享变量：广播变量和累加器。 1.广播变量-Broadcast Vari...

spark rdd操作API

bsf5521的博客

08-02

431

RDD的基础操作API介绍：操作类型函数名作用转化操作 map() 参数是函数，函数应用于RDD每一个元素，返回值是新的RDD flatMap() 参数是函数，函数应用于RDD每一个元素，将元素数据进行拆分，变成迭代器，返回值是新的RDD filter() 参

参与评论您还未登录，请先登录后发表或查看评论

Spark RDD操作API -- Transformations

taoke的博客

01-02

299

wordcount例子 from pyspark import SparkConf, SparkContext from pyspark import SparkContext from operator import add import os ''' 1.txt 文件中的内容为： hello world hahah how are you todo world world hello worl...

SparkCore:RDD-API史上最详细操作

m0_37778709的博客

04-26

434

SparkCore:RDD-API史上最详细操作 RDD-API

RDD的一些api的用法

metooman的博客

12-11

934

RDD API 分为Actor类型与Transformation类型Transformation：延迟加载，并不会直接计算结果，而是记住这些应用到基础数据集上的转换动作。只有在要求返回结果给Driver的动作时（也可以说到actor方法），这些转换才会真正运行，这让spark更加有效率地运行常用的transformation apimap(func)，遍历元素通过func函数生成新的元素 filte

spark（五）：RDD API接口

幻神舞的专栏

12-03

1836

文章目录说明分享接口说明mapfilterflatMapmapPartitionsmapPartitionsWithIndexmapWithflatMapWithcoalescerepartitionrandomSplitglomunion并集distinct总结说明本文记录一部分Spark RDD接口Scala代码实现。分享大数据博客列表接口说明 map 对RDD中的每个元素执行一个指定函数产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应，实例如下： v

spark-rdd-APi

12-14

标题：“Spark RDD API”说明了本文档将专注于Apache Spark中弹性分布式数据集（RDD）的API。RDD是Spark的核心概念，它是一个容错的、并行的数据结构，使得用户能够处理大数据集。本文档将基于Scala语言中的RDD实现...

spark-2.4.7-bin-hadoop2.6.tgz

03-17

RDD提供了高效的转换（transformations）和动作（actions）操作。 2. **内存计算**：Spark通过将数据存储在内存中而不是磁盘上，极大地提升了数据处理速度。当任务需要多次访问同一数据时，内存中的缓存显著减少了I...

Spark---RDD的创建分类和基础操作算子详解

onthe_wing的博客

04-21

1159

转换算子(Transformations) (如：map, filter, groupBy, join等)，Transformations操作是Lazy的，也就是说从一个RDD转换生成另一个RDD的操作不是马上执行，Spark在遇到Transformations操作时只会记录需要这样的操作，并不会去执行，需要等到有Actions操作的时候才会真正启动计算过程进行计算。集合中的每一个元素，都要作用func匿名函数，返回0到多个新的元素，这些新的元素共同构成一个新的RDD。是一个one-to-many的操作。

Spark RDD简介与操作

weixin_62121679的博客

08-01

553

在Spark中，RDD可以看作是一个对象，它本身运行于内存中，如读文件是一个RDD，对文件计算是一个RDD，结果集也是一个RDD。在Spark中，RDD可以看作是一个对象，它本身运行于内存中，可以用于读文件、对文件计算、结果集等操作。在Spark中，RDD是一个并行集合，它包含多个分片，每个分片可以在不同的计算节点上并行处理。然后，我们对RDD进行转换和计算操作，并输出结果。在Scala中，Spark的RDD API提供了许多转换操作（transformations），用于对RDD进行转换和计算。

SparkRDD函数详解

布里啾啾迪布利多的博客

03-12

6943

1、RDD操作详解启动spark-shellspark-shell --master spark://node-1:70771.1 基本转换1) mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例：scala> val a =sc.parallelize(1 to 9, 3)scala&gt...

Spark RDD Actions操作之reduce()

06-26

5650

textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b) The arguments to reduce() are Scala function literals (closures)。针对每一个元素进行操作。 Scala的anonymous(匿名函数)： def num(x:

Spark安装成功首个RDD操作【yeah！】

yuxeaotao的博客

04-14

375

rdd = sc.parallelize([1,2,3,4,5]) rdd.map(lambda x:x+1).reduce(lambda x,y:x+y) 结果显示：20。即，先给每个加1，再累加。如果是： rdd = sc.parallelize([1,2,3,4,5]) rdd.map(lambda x:x+1) #PythonRDD[1] at RDD at PythonRDD...

RDD用法与实例（一）基础介绍

m0_37754282的博客

09-27

1223

##部分材料内容源自于HKUST的课上笔记只有执行actions里的才会最终计算例如↓ #Read data from local file system: # sc.textFile 读取数据 fruits = sc.textFile('../data/fruits.txt') yellowThings = sc.textFile('../data/yellowthings.txt') print(fruits.collect()) print(yellowThings.collect()) l

SparkRDD常用算子实践（附运行效果图）

Magician的博客

12-14

8850

SparkRDD算子分为两类：Transformation与Action. Transformation：即延迟加载数据，Transformation会记录元数据信息，当计算任务触发Action时，才会真正开始计算。 Action：即立即加载数据，开始计算。创建RDD的方式有两种： 1、通过sc.textFile(“/root/words.txt”)从文件系统中创建 RDD。 2、#通...

Spark中的RDD基本操作

Mr.Phoebe的专栏

02-11

9412

Spark中的RDD基本操作前言 RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图。这些知识点在别的地方介绍得非常多，本文就不去讲这些了。在阅读本文时候，大家可以就把RDD当作一个数组，或者一个Scala的collection对象，这样的理解对我们学习RDD的API是非常有帮助的。 RDD的创建 Spark里的计算都是操作RDD进行，那...

第2章 RDD编程

再难也要坚持的博客

03-12

1530

RDD编程2.1 编程模型2.2 RDD的创建2.2.1 从集合中创建2.2.2 由外部存储系统的数据集创建2.2.3 从其他RDD创建2.3 RDD的转换（面试开发重点）2.3.1 Value类型2.3.1.1 map(func)案例2.3.1.2 mapPartitions(func) 案例2.3.1.3 mapPartitionsWithIndex(func) 案例2.3.1.4 flatM...

Spark 之 AQE

zhixingheyi_tian的博客

06-07

272

AQE 的循环触发点。

Spark流水线+Gravitino+Marquez数据血缘采集