PySpark:parallelize, collect, map, reduce等API的简单用法

最新推荐文章于 2024-06-02 19:53:17 发布

kingloneye

最新推荐文章于 2024-06-02 19:53:17 发布

阅读量1.6k

点赞数

分类专栏： Spark 大数据文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38887752/article/details/106232534

版权

大数据同时被 2 个专栏收录

96 篇文章 3 订阅

订阅专栏

35 篇文章 1 订阅

订阅专栏

RDD数据类型

RDD（Resilient Distributed DataSet）是一种弹性分布式数据集，是Spark的核心，其可以有由稳定存储中的数据通过转换（transformation）操作得到。RDD数据是一种可以并行操作的数据，它在创建的时候已经分区，且每次对RDD操作的结果可以放到高速缓存中，省去了MapReduce频繁的磁盘IO。

针对RDD数据的操作/函数有两种类型：转换（transformation）和动作（action）。

transformation类型：从一个RDD转化到另一个RDD的函数。

action类型：非RDD与RDD之间的相互转化的函数。

1. parallelize()、collect()和glom()

在这里插入图片描述

arallelize()函数将一个List列表转化为了一个RDD对象，collect()函数将这个RDD对象转化为了一个List列表。

parallelize()函数的第二个参数表示分区，默认是1，此处为2，表示将列表对应的RDD对象分为两个区。

glom()函数就是要显示出RDD对象的分区情况，可以看出分了两个区，如果没有glom()函数，则不显示分区

2. map()

参数是函数，函数应用于RDD每一个元素，返回值是新的RDD
示例一：对每个数据加1操作
在这里插入图片描述
示例二：将每个参数转换成(x,1)形式

3.flatMap()

参数是函数，函数应用于RDD每一个元素，将元素数据进行拆分，变成迭代器，返回值是新的RDD
在这里插入图片描述

4.filter()

参数是函数，函数会过滤掉不符合条件的元素，返回值是新的RDD
示例：对每个参数加1，过滤取大于5的数据
在这里插入图片描述

5.distinct()

没有参数，将RDD里的元素进行去重操作
在这里插入图片描述

6.union()

参数是RDD，生成包含两个RDD所有元素的新RDD
在这里插入图片描述

7.intersection()

参数是RDD，求出两个RDD的共同元素
在这里插入图片描述

8.reduce()

并行整合所有RDD数据，例如求和操作，最终只返回一个值
在这里插入图片描述

9.reduceByKey()

reduceByKey()将Key相同的元素合并
在这里插入图片描述
总结：reduce()和reduceByKey()的区别？
reduce()最终只返回一个值
reduceByKey()将Key相同的元素合并

reduce()将RDD转化为非RDD对象
reduceByKey()将RDD对象转化为另一个RDD对象，需要collect()函数才能输出

10.groupByKey()

将数据分组
在这里插入图片描述

11.sortByKey(False)

降序或者正序排序
在这里插入图片描述

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
PySpark:parallelize, collect, map, reduce等API的简单用法

RDD数据类型RDD（Resilient Distributed DataSet）是一种弹性分布式数据集，是Spark的核心，其可以有由稳定存储中的数据通过转换（transformation）操作得到。RDD数据是一种可以并行操作的数据，它在创建的时候已经分区，且每次对RDD操作的结果可以放到高速缓存中，省去了MapReduce频繁的磁盘IO。针对RDD数据的操作/函数有两种类型：转换（transformation）和动作（action）。transformation类型：从一个RDD转化到另一个RD
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。