Spark-Shell 常用算子练习

最新推荐文章于 2021-08-10 16:04:25 发布

随风奔跑之水

最新推荐文章于 2021-08-10 16:04:25 发布

阅读量447

点赞数 1

分类专栏： Spark Scala 文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_40873462/article/details/108258506

版权

本文通过Spark Shell展示了大数据处理中的常见算子使用，以代码实例帮助读者深入理解查询操作。文章内容持续更新。

摘要由CSDN通过智能技术生成

废话不多说，直接上代码，方便理解查询：

// 在控制台执行：spark-shell
// ------------------------------------------------------
// 一、元素型 RDD数据
val rdd = sc.parallelize(1 to 10, 3)
rdd.glom.collect    =>  rdd: Array[Array[Int]] = Array(Array(1, 2, 3), Array(4, 5, 6), Array(7, 8, 9, 10))
// transformation 转换，记录了RDD演变的过程，只有action才会触发transformation进行计算
// ------------------------------------------------------
// ====================【transformation 算子】====================
// 1、map算子：map(function) （针对每个元素做操作）
val result01 = rdd.map( t => t + 1)
result01.collect  =>  result01: Array[Int] = Array(2, 3, 4, 5, 6, 7, 8, 9, 10, 11)

// 2、mapPartitions算子：mapPartitions(function) （针对每个分区做操作）
val result02 = rdd.mapPartitions(t => t.map(s => s + 1))
result02.collect   =>  result02: Array[Int] = Array(2, 3, 4, 5, 6, 7, 8, 9, 10, 11)

// 3、flatMap算子：flatMap(function)  (map+flatten)
val result03 = result05.flatMap(t => (t to 10))
result03.collect   =>  result03: Array[Int] = Array(2, 3, 4, 5, 6, 7, 8, 9, 10, 4, 5, 6, 7, 8, 9, 10, 6, 7, 8, 9, 10, 8, 9, 10, 10)

// 4、glom算子：（把每个分区的数据都放到数组中）
val result04 = rdd.glom
result04.collect   =>   result04: Array[Array[Int]] = Array(Array(1, 2, 3), Array(4, 5, 6), Array(7, 8, 9, 10))

// 5、filter算子：filter(function)  (过滤)
val result05 = rdd.filter(t => t % 2

最低0.47元/天解锁文章

随风奔跑之水

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark-Shell 常用算子练习

// 在控制台执行：spark-shell// ------------------------------------------------------// 一、元素型 RDD数据val rdd = sc.parallelize(1 to 10, 3) => rdd: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)// transformation 转换，记录了RDD演变的过程，只有action才会触发transformatio.
复制链接

扫一扫

专栏目录