数组 spark_计算框架 Spark 基础之 RDD 操作

最新推荐文章于 2022-11-22 06:06:28 发布

棒棒李

最新推荐文章于 2022-11-22 06:06:28 发布

阅读量214

点赞数

文章标签：数组 spark

本文链接：https://blog.csdn.net/weixin_33358099/article/details/112605796

版权

本文深入探讨了Spark中的核心概念——弹性分布式数据集(RDD)，重点关注其转换和行动操作。转换如map、filter、reduceByKey等在数据处理中发挥关键作用，而行动如foreach、saveAsTextFile则触发数据计算和输出。理解这些操作对于高效地使用Spark进行大数据分析至关重要。

摘要由CSDN通过智能技术生成

↑ 点击上面 “时代Java”关注我们， 关注新技术，学习新知识！

Spark是一个函数式的大数据处理框架，可以让你专注于数据分析，其中RDD是不可变的数据集合，可以进行转换去实现程序逻辑，通常转换次数大于行动次数，但是转换时懒惰的，仅在调用下游的行动时才触发转换操作~

RDD是构成Spark的基础，是容错、数据读取、存储以及转换的基本单元，这些操作与转换、行动相结合，可以用来整合几乎99%的易并行应用程序~

一、RDD 转换操作

映射转换包括：map、flatMap、mapPartitions、filter等

map：调用用户提供的function，作用于输入RDD中的每个数据点
flatMap：与map相同，但是输出的大小可能与输入RDD的大小不同
mapPartitions：调用传递的function，作用于RDD中的每个分区
filter：过滤掉符合特定条件的值，提供的function需要返回域给定条件对应的布尔值

变化转换包括：coalesce、repartition、union、intersection、groupByKey、sortByKey等

coalesce：减少一个RDD中的分区数
repartition：增加或减少RDD中的分区数
union：返回与另一个RDD的并集
intersection：返回与另一个RDD的交集
groupByKey：按key对值进行分组，返回的RDD包含每个组的键值对，其中值是已分组的值得迭代器
sortByKey：按key对RDD进行排序，默认对key进行升序排序
reduceByKey：使用提供的function聚合每个key的值，采用RDD的第一个元素作为其内部累加器的初始值
foldByKey：与reduceByKey类似，但使用initialValue初始化内部累加器
combineByKey：聚合RDD的值，但允许聚合函数的返回值类型与输入类型不同。需要3个函数作为参数，第一个是createCombiner：初始化累加器；第二个是mergeValue：合并相同键的值；第三个是mergeCombines：合并两个累加器
aggregateByKey：类似于combineByKey，但第一个参数是initialValue作为初始参数
join：在一个RDD和另外一个RDD上执行内部连接

混合转换包含：cartesian、distinct、pipe、sample等