SparkCore系列-5、RDD 函数练习

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

大数据系列文章目录

官方网址http://spark.apache.org/https://databricks.com/spark/about
在这里插入图片描述

回顾

上篇文章介绍了Spark的一些重要函数,也是企业开发中比较常用的函数,有没看的小伙伴可以去了解下。

基本介绍

RDD中的函数有很多,不同业务需求使用不同函数进行数据处理分析,下面仅仅展示出比较常用的函数使用,更多函数在实际中使用体会,多加练习理解。

map 函数

对RDD中的每一个元素进行操作并返回操作的结果。
在这里插入图片描述

filter 函数

函数中返回True的被留下,返回False的被过滤掉。
在这里插入图片描述

flatMap 函数

对RDD中的每一个元素进行先map再压扁,最后返回操作的结果。
在这里插入图片描述

交集、并集、差集、笛卡尔积

数学集合中操作,类似Scala集合类Set中相关函数,注意类型要一致。
在这里插入图片描述

distinct 函数

对RDD中元素进行去重,与Scala集合中distinct类似。
在这里插入图片描述

first、 take、 top 函数

从RDD中获取某些元素,比如first为第一个元素, take为前N个元素, top为最大的N个元素。
在这里插入图片描述

keys、 values 函数

针对RDD中数据类型为KeyValue对时,获取所有key和value的值,类似Scala中Map集合。
在这里插入图片描述

mapValues 函数

mapValues表示对RDD中的元素进行操作,Key不变,Value变为操作之后。
在这里插入图片描述

collectAsMap 函数

当RDD中数据类型为Key/Value对时,转换为Map集合。
在这里插入图片描述

mapPartitionsWithIndex 函数

取分区中对应的数据时,还可以将分区的编号取出来,这样就可以知道数据是属于哪个分区的。
在这里插入图片描述

下回分解

通过一些函数的练习,帮助我们更好的理解函数,下篇文章将给小伙伴介绍下RDD的持久化,RDD如何缓存?什么时间释放缓存?等等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术武器库

一句真诚的谢谢,胜过千言万语

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值