spark之RDD基本转换

最新推荐文章于 2022-05-28 10:32:03 发布

gongpulin

最新推荐文章于 2022-05-28 10:32:03 发布

阅读量3.2k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/gongpulin/article/details/51549782

版权

本文详细介绍了Spark中RDD的常用转换操作，包括map、flatMap、mapPartitions、intersection、distinct、cartesian、coalesce、repartition、glom和randomSplit等，通过实例展示了这些操作如何在数据集上进行转换和处理。

摘要由CSDN通过智能技术生成

1.map(func)：数据集中的每个元素经过用户自定义的函数转换形成一个新的RDD，新的RDD叫MappedRDD

object Map {
def main(args: Array[String]) {
val conf = new SparkConf().setMaster("local").setAppName("map")
val sc = new SparkContext(conf)
val rdd = sc.parallelize(1 to 10) //创建RDD
val map = rdd.map(_*2) //对RDD中的每个元素都乘于2
map.foreach(x => print(x+" "))
sc.stop()
}
}

输出：

2 4 6 8 10 12 14 16 18 20

2.flatMap(func):与map类似，但每个元素输入项都可以被映射到0个或多个的输出项，最终将结果”扁平化“后输出

val rdd = sc.parallelize(1 to 5)
val fm = rdd.flatMap(x => (1 to x)).collect()
fm.foreach( x => print(x + " "))

输出：

1 1 2 1 2 3 1 2 3 4 1 2 3 4 5

3.mapPartitions(func):类似与map，map作用于每个分区的每个元素，但mapPartitions作用于每个分区工
func的类型：Iterator[T] => Iterator[U]
假设有N个元素，有M个分区，那么map的函数的将被调用N次,而mapPartitions被调用M次,当在映射的过程中不断的创建对象时就可以使用mapPartitions比map的效率要高很多，比如当向数据库写入数据时，如果使用map就需要为每个元素创建connection对象，但使用mapPartitions的话就需要为每个分区创建connetcion对象
(例3)：输出有女性的名字：

最低0.47元/天解锁文章

gongpulin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark之RDD基本转换

1.map(func)：数据集中的每个元素经过用户自定义的函数转换形成一个新的RDD，新的RDD叫MappedRDDobject Map { def main(args: Array[String]) { val conf = new SparkConf().setMaster("local").setAppName("map") val sc = new Spark
复制链接

扫一扫