学习spark：二、RDD的Transformations操作

最新推荐文章于 2023-08-01 17:10:52 发布

coding如逆水行舟

最新推荐文章于 2023-08-01 17:10:52 发布

阅读量1.3k

点赞数

分类专栏： Spark 文章标签： spark 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Earl211/article/details/47256983

版权

本文详细介绍了Spark中RDD的Transformation操作，包括Value数据类型的map、filter、flatMap等，以及Key-Value数据类型的groupByKey、reduceByKey、aggregateByKey等，帮助理解这些操作在分布式计算中的应用。

摘要由CSDN通过智能技术生成

一、简介

　　Spark中的核心数据模型是弹性分布式数据集（RDD），而弹性分布式数据集（RDD）是个抽象类，具体的实现是由各个子类实现的。Spark将常用的大数据操作都转换为对RDD的子类操作。
　　Transformation操作的对象有两种：Value数据类型，Key-Value数据类型。下面将这两种数据类型的操作列出来：

二、Translation操作

2.1 Value数据类型

map(func)
　　将原来RDD中的每个元素通过自定义函数func转换为一个包含新元素的RDD。

filter(func)
　　对原有RDD中的元素进行过滤，每个元素输入到func函数中，如果func函数返回为true则保留，返回false则丢弃。

flatMap(func)
　　功能与map相似，但是输出的是一个集合。

mapPatitions(func)
　　功能与map相似，但是mapPatitions获取的是每个分区的迭代器。

mapPationsWithIndex(func)
　　功能与mapPatitions相似，但是func函数要返回一个表示分区index的interger类型的值

sanple(withReplacement, fraction, seed)
　　对数据集中的数据进行采样，想成一个新的RDD

union(otherDateset)
　　将两个数据类型相同的RDD合并成一个RDD

intersection(oterDataset)
　　返回一个包含两个数据类型相同的RDD的交集的全新的RDD

distinc

最低0.47元/天解锁文章

coding如逆水行舟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。