Spark的shell界面操作（RDD算子类型:转换算子，执行算子，控制算子）

最新推荐文章于 2024-02-28 16:07:24 发布

struggle@徐磊

最新推荐文章于 2024-02-28 16:07:24 发布

阅读量778

点赞数 1

分类专栏： # Spark Core 文章标签：大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44472134/article/details/104214391

版权

本文介绍了Spark Shell中三种主要的算子操作：转换算子（延迟执行）、执行算子（立刻执行）和控制算子（用于数据缓存）。详细探讨了在Spark Shell中如何进行这些操作，并提供了两种进入shell界面的方式，包括基于standalone和YARN调度的进入方法。

摘要由CSDN通过智能技术生成

目录

一、HADOOP和Spark生态圈

二、Spark Shell 中算子的操作（转换算子，执行算子，控制算子）

2.1、Tansformation算子/函数延迟执行转换算子

2.2、Action 立刻执行行动算子

2.3、控制算子主要是为了对数据进行缓存详细介绍：https://blog.csdn.net/qq_44472134/article/details/104166577

三、进入shell界面操作算子的两种进入方式（spark的三种模式安装链接：https://blog.csdn.net/qq_44472134/article/details/104339585）

3.1、spark基于standload的进入方式

3.2、spark基于yarn调度的进入方式

一、HADOOP和Spark生态圈

二、Spark Shell 中算子的操作（转换算子，执行算子，控制算子）

2.1、Tansformation算子/函数延迟执行转换算子

1、map 窄依赖

2、filter 窄依赖

3、flatMap 窄依赖

4、coalesce (分区数,true) rdd7.partitions.size 查看rdd的分区数 val rdd5=rdd4.coalesce(3,true)

可以增加分区，可以减少分区，有 shuffle（一个父RDD到多个子RDD）所以是宽依赖

5、repartition (分区数) 不管允不允许都会进行 shuffle val rdd5=rdd4.repartition(4)

可以增加分区，可以减少分区，有shuffle 所以是宽依赖分区

6、groupByKey（） RDD[String,Iterable(Int)]

7、reduceBykey（_+_） val rdd8=rdd7.reduceByKey(_+_) 宽依赖

8、sortBykey（）根据K排序，要求RDD 中必须是KV的，宽依赖

9、sortBy（_._2,false）以value排序，进行倒序排序

最低0.47元/天解锁文章

struggle@徐磊

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark的shell界面操作（RDD算子类型:转换算子，执行算子，控制算子）

目录HADOOP和Spark生态圈bin 目录下spark-shell 命令进入Spark Shell 中算子的操作（转换算子和执行算子）单节点基于standload的进入方式单节点基于yarn调度的进入方式HADOOP和Spark生态圈bin 目录下spark-shell 命令进入Spark Shell 中算子的操作（转换算子和执行算子）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。