SparkCore系列-5、RDD 函数练习

最新推荐文章于 2023-07-01 19:40:28 发布

技术武器库

最新推荐文章于 2023-07-01 19:40:28 发布

阅读量185

点赞数 1

分类专栏：大数据专栏文章标签： scala spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l848168/article/details/126034740

版权

大数据专栏专栏收录该内容

83 篇文章 27 订阅

订阅专栏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据系列文章目录

官方网址：http://spark.apache.org/、https://databricks.com/spark/about
在这里插入图片描述

目录

回顾
基本介绍
map 函数
filter 函数
flatMap 函数
交集、并集、差集、笛卡尔积
distinct 函数
first、 take、 top 函数
keys、 values 函数
mapValues 函数
collectAsMap 函数
mapPartitionsWithIndex 函数
下回分解

回顾

上篇文章介绍了Spark的一些重要函数，也是企业开发中比较常用的函数，有没看的小伙伴可以去了解下。

基本介绍

RDD中的函数有很多，不同业务需求使用不同函数进行数据处理分析，下面仅仅展示出比较常用的函数使用，更多函数在实际中使用体会，多加练习理解。

map 函数

对RDD中的每一个元素进行操作并返回操作的结果。
在这里插入图片描述

filter 函数

函数中返回True的被留下,返回False的被过滤掉。
在这里插入图片描述

flatMap 函数

对RDD中的每一个元素进行先map再压扁,最后返回操作的结果。
在这里插入图片描述

交集、并集、差集、笛卡尔积

数学集合中操作，类似Scala集合类Set中相关函数，注意类型要一致。
在这里插入图片描述

distinct 函数

对RDD中元素进行去重，与Scala集合中distinct类似。
在这里插入图片描述

first、 take、 top 函数

从RDD中获取某些元素，比如first为第一个元素， take为前N个元素， top为最大的N个元素。
在这里插入图片描述

keys、 values 函数

针对RDD中数据类型为KeyValue对时，获取所有key和value的值，类似Scala中Map集合。
在这里插入图片描述

mapValues 函数

mapValues表示对RDD中的元素进行操作,Key不变,Value变为操作之后。
在这里插入图片描述

collectAsMap 函数

当RDD中数据类型为Key/Value对时，转换为Map集合。
在这里插入图片描述

mapPartitionsWithIndex 函数

取分区中对应的数据时，还可以将分区的编号取出来，这样就可以知道数据是属于哪个分区的。
在这里插入图片描述

下回分解

通过一些函数的练习，帮助我们更好的理解函数，下篇文章将给小伙伴介绍下RDD的持久化，RDD如何缓存？什么时间释放缓存？等等。

技术武器库

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

技术武器库

CSDN认证博客专家 CSDN认证企业博客

码龄7年

Java领域优质创作者

221: 原创

5220: 周排名

6653: 总排名

58万+: 访问

: 等级

5569: 积分

2万+: 粉丝

380: 获赞

134: 评论

1064: 收藏

私信

关注

热门文章

分类专栏

Excel 1篇
Dubbo 1篇
JAVA-GUI专栏 2篇
大数据专栏 83篇
Spring系列 1篇
ChatGPT
ShardingSphere 5篇
吐血整理 54篇
JAVA多线程与并发 18篇
Redis 6篇
SpringCloud 7篇
SpringBoot 11篇
Linux 15篇
Docker 3篇
Mybatis 8篇
Mysql 7篇
IDEA
JVM 5篇
Netty 1篇
ËlasticaSearch 1篇
Jmeter 2篇
Jenkins 3篇
Java基础 3篇
Windows 3篇

最新评论

集群部署下，动态生成雪花算法WorkId和DataCenterId
会撩头发的程序猿: 应该要消除这个概率，你这种拿host取模，实例多了自然会重复，而且你也没有完全复用wordId和dataCenterId得1024种组合，最好的方法就是用redis的自增Id取模，当然了如果大项目实例超过了1024，单独部署一个服务生成分布式Id就好。
集群部署下，动态生成雪花算法WorkId和DataCenterId
技术武器库: wordId和dataCenterId会有小概率重复，例如有2个节点重复，但是重复的2个节点又在同一毫秒内，使用多线程大量去生成ID，种种概率加在一起，其实非常低
集群部署下，动态生成雪花算法WorkId和DataCenterId
会撩头发的程序猿: 你这种方式，两个Id会重复的，都是32取模，你这样都不能完全利用他们的1024种组合（32*32），有重复的几率。
阿里云服务器Linux搭建Socket5
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。
实战内网穿透NPS搭建过程
技术武器库: 看文档

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

技术武器库 一句真诚的谢谢，胜过千言万语

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。