Spark的shell界面操作(RDD算子类型:转换算子,执行算子,控制算子)

本文介绍了Spark Shell中三种主要的算子操作:转换算子(延迟执行)、执行算子(立刻执行)和控制算子(用于数据缓存)。详细探讨了在Spark Shell中如何进行这些操作,并提供了两种进入shell界面的方式,包括基于standalone和YARN调度的进入方法。
摘要由CSDN通过智能技术生成

目录

一、HADOOP和Spark生态圈

二、Spark Shell  中算子的操作  (转换算子,执行算子,控制算子)

2.1、Tansformation算子/函数    延迟执行   转换算子

2.2、Action                        立刻执行  行动算子

2.3、控制算子  主要是为了对数据进行缓存    详细介绍:https://blog.csdn.net/qq_44472134/article/details/104166577

三、进入shell界面操作算子的两种进入方式(spark的三种模式安装 链接:https://blog.csdn.net/qq_44472134/article/details/104339585)

3.1、spark基于standload的进入方式

3.2、spark基于yarn调度的进入方式


一、HADOOP和Spark生态圈

二、Spark Shell  中算子的操作  (转换算子,执行算子,控制算子)

2.1、Tansformation算子/函数    延迟执行   转换算子

1、map     窄依赖
2、filter     窄依赖
3、flatMap  窄依赖
4、coalesce         (分区数,true)  rdd7.partitions.size   查看rdd的分区数     val rdd5=rdd4.coalesce(3,true)
可以增加分区,可以减少分区,有 shuffle(一个父RDD到多个子RDD)  所以是宽依赖
5、repartition      (分区数)     不管允不允许都会进行 shuffle     val rdd5=rdd4.repartition(4)
可以增加分区,可以减少分区,有shuffle  所以是宽依赖  分区
6、groupByKey() RDD[String,Iterable(Int)]
7、reduceBykey(_+_) val rdd8=rdd7.reduceByKey(_+_)     宽依赖
8、sortBykey()   根据K排序,要求RDD 中必须是KV的,宽依赖
9、sortBy(_._2,false)  以value排序,进行倒序排序
 
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值