Spark RDD操作总结

最新推荐文章于 2024-03-24 12:11:10 发布

YongYu_IT

最新推荐文章于 2024-03-24 12:11:10 发布

阅读量462

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YongYu_IT/article/details/97269587

版权

大数据专栏收录该内容

16 篇文章 2 订阅

订阅专栏

转换类

filter：遍历+筛选

call函数每次输入一个rdd内的元素；输出bool值，真则保留，假则抛弃。最终filter将会得到对原rdd全部筛选一遍后的结果rdd

map：遍历+转换

call函数每次输入一个rdd内的元素；输出根据输入元素转换之后的值。最终map将会输出全部元素转换之后的rdd。

例如，原RDD={1，2，3，4，5}，call转换规则是x/10，map之后的RDD={0.1，0.2，0.3，0.4，0.5}

flatMap：遍历+压扁

call函数每一次输入一个rdd内的元素；输出这个元素的切分结果（列表，这种操作就是所谓的压扁）。最终这些列表重新组合成新的rdd

例如，原RDD={"A B C", "D", "E F"}，切分原则是按空格对字符串进行切分，flatMap后的RDD={"A", "B", "C", "D", "E", "F"}

*如果用map进行遍历和转换，call同样得对每个元素进行空格切分并输出切分后的列表，结果会变成：{{"A", "B", "C"}, {"D"}, {"E", "F"}}

union：合并

无函数

distinct：去重

RDD不是严格的集合，里面常常会有重复元素。此操作可以得到一个元素唯一的RDD。

*此操作会导致数据发生全网混洗！

intersection：求并集

找出两个RDD都有的元素，并去重

*此操作会导致数据发生全网混洗！

subtract：求差集

找出第一个（主调对象）RDD中存在，但是第二个（传入对象）RDD中没有的对象。

例如，第一个RDD：(1, 1, 2, 2, 3, 3, 4, 5, 6)；第二个RDD：(1, 1, 2, 5, 6, 7, 7, 8, 9)；结果：(3,3,4)

*此操作会导致数据发生全网混洗！

cartesian：求笛卡尔集

求两个rdd的笛卡尔积，得到的结果rdd是pairRdd，键来自第一个（主调）rdd，值来自第二个（传入）rdd

*此操作开销巨大，会导致数据发生全网混洗！

行动类

reduce：规约

如果rdd只有一个分区：对rdd进行规约，举个例子，假设规约规则（call函数）是输出=输入1+输入2，这样对于rdd={1，2，3，4，5，6}，reduce过程为：1+2=3；3+3=6；6+4=10；10+5=15；15+6=21。

call函数每次输入前一次计算的结果（第一个输入参数）和一个新rdd元素（第二个输入参数），然后将两者规约之后，作为下次call的第一个输入参数。

如果rdd有多个分区：先分别对各个分区进行归约，然后对分区规约结果再进行规约，例如rdd={1，2，3，4，5，6}，由两个分区：1，2，3和4，5，6。那么，reduce过程为：

1+2=3；3+3=6；

4+5=9；9+6=15；

6+15=21

fold：规约

与reduce高度类似，稍微不同的是允许指定每次规约（有n个分区，就需要n+1次规约）允许指定初始值。而reduce里面，初始值是rdd的第一个元素。

举例，假设规约规则（call函数）是输出=输入1+输入2，rdd={1，2，3，4，5，6}，由两个分区：1，2，3和4，5，6。初始值为0，那么，fold过程为：

0+1=1；1+2=3；3+3=6；

0+4=4；4+5=9；9+6=15；

0+6=6；6+15=21

aggregate：规约

无论是reduce还是fold，对于分区内和分区间的规约函数是一致的。而aggregate允许分别定义分区内和分区间的规约函数。

另外，reduce和fold要求规约结果类型和rdd内元素类型一致，而aggregate允许规约结果类型与rdd内元素类型不同

count：统计RDD内元素个数

无函数，这个操作常用于对RDD积累的惰性操作强制执行。

countByValue：值相同的元素分组统计元素个数

take：取元素

从rdd中取出头部若干个元素

top：取元素

根据某种排序（默认顺序或者自定义排序函数），取出头部若干个元素

takeSample：取元素

取样，从rdd中随机取出若干个元素

colloct：取全部元素

从rdd中取出全部元素

take和colloct操作中提到的“取出”，都是指将数据从各个Spark Slave中收集到驱动器进程中。需要注意的是，这种操作“取出”的数据不能太大，否则驱动器进程放不下！

foreach：遍历，无返回

遍历rdd，并进行操作。操作结束后不收集任何数据到驱动器程序。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD操作总结

转换类filter：遍历+筛选call函数每次输入一个rdd内的元素；输出bool值，真则保留，假则抛弃。最终filter将会得到对原rdd全部筛选一遍后的结果rddmap：遍历+转换call函数每次输入一个rdd内的元素；输出根据输入元素转换之后的值。最终map将会输出全部元素转换之后的rdd。例如，原RDD={1，2，3，4，5}，call转换规则是x/10，map之后的R...
复制链接

扫一扫

专栏目录

YongYu_IT CSDN认证博客专家 CSDN认证企业博客

码龄10年

346: 原创

4万+: 周排名

170万+: 总排名

51万+: 访问

: 等级

8203: 积分

92: 粉丝

40: 获赞

32: 评论

214: 收藏

私信

关注

热门文章

分类专栏

最新评论

to_string()用不了
Ursphere: to_string好像不在string.h头文件中吧
android音频（三）——利用ndk直接编译faac和faad（续1）
qq_41889540: 请问如果需要支持DRM应该怎么改呢
Go语言里的那些坑（一）允许变量重复定义
剑玄录: 这没问题的
win10+VS2015编译Trinity源码全过程
听风未聆雨: 配置了boost的环境变量但是CMake编译的时候还是提示找不到Boost [code=cpp] CMake Error at C:/liusiyuan/development/CMake/share/cmake-3.23/Modules/FindPackageHandleStandardArgs.cmake:230 (message): Could NOT find Boost (missing: system filesystem program_options iostreams regex) (found suitable version "1.78.0", minimum required is "1.73") Call Stack (most recent call first): C:/liusiyuan/development/CMake/share/cmake-3.23/Modules/FindPackageHandleStandardArgs.cmake:594 (_FPHSA_FAILURE_MESSAGE) C:/liusiyuan/development/CMake/share/cmake-3.23/Modules/FindBoost.cmake:2375 (find_package_handle_standard_args) dep/boost/CMakeLists.txt:38 (find_package) [/code]
Android native service实例（一）
leon hart:

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。