pyspark 之 rdd操作

最新推荐文章于 2023-10-04 00:00:00 发布

天天~

最新推荐文章于 2023-10-04 00:00:00 发布

阅读量1.3k

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42784951/article/details/117782281

版权

1、rdd 简介

什么是rdd？从官网和一些技术博客上我们都可以看到这样的介绍

RDD叫做弹性分布式数据集(resilient distributed dataset) ，是Spark中最基本的数据抽象，它是跨集群节点分区的元素集合，可以并行操作。

官网举例如下：

## 构建包含应用信息的SparkConf对象
conf = SparkConf().setAppName(appName).setMaster(master)
## 创建SparkContext对象，Spark通过它访问集群
sc = SparkContext(conf=conf)
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)

如上所示，集合data的元素被复制并形成可以并行化操作的分布式数据集，即创建了一个包含数字1到5的并行化集合。

因此可以简单理解为RDD为对输入集合的一种封装，如java使用对象进行封装，Spark将输入数据封装为分布式集合(RDD)，方便数据进行分布式计算。 如下图所示：

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspark 之 rdd操作

1、rdd 简介什么是rdd？从官网和一些技术博客上我们都可以看到这样的介绍RDD叫做弹性分布式数据集(resilient distributed dataset) ，是Spark中最基本的数据抽象，它是跨集群节点分区的元素集合，可以并行操作。官网举例如下：## 构建包含应用信息的SparkConf对象conf = SparkConf().setAppName(appName).setMaster(master)## 创建SparkContext对象，Spark通过它访问集群sc = Sp
复制链接

扫一扫

专栏目录

天天~ CSDN认证博客专家 CSDN认证企业博客

码龄6年

20: 原创

30万+: 周排名

77万+: 总排名

18万+: 访问

: 等级

1292: 积分

71: 粉丝

195: 获赞

55: 评论

722: 收藏

私信

关注

热门文章

分类专栏

Spark 2篇
大数据开发 1篇
数据仓库 1篇
JAVA工程 1篇
算法 4篇
图像处理 6篇

最新评论

传统图像去模糊
yuzhouchangwan88: 你好啊，请问你现在知道这篇文章题目是什么吗
DeblurGAN-v2: Deblurring (Orders-of-Magnitude) Faster and Better阅读笔记
Bill H: raise ValueError( ValueError: win_size exceeds image extent. Either ensure that your images are at least 7x7; or pass win_size explicitly in the function call, with an odd value less than or equal to the smaller side of your images. If your images are multichannel (with color channels), set channel_axis to the axis number corresponding to the channels. Process finished with exit code 1 博主，我出现了这个问题
单调栈详解
天天~: 这个是索引从0 开始还是从1 开始的问题，看个人习惯
单调栈详解
timegrass: 有一个小疑问：文中“我们遍历到第五个柱子的时候， x=1, y=6 则 S[4] = 8”这里，S[i]应该是表示第i根柱子的最大面积吧，那是否应该是S[5]=8呢？？
单调栈详解
timegrass: 有一个小疑问：文中“我们遍历到第五个柱子的时候， x=1, y=6 则 S[4] = 8”这里，S[i]应该是表示第i根柱子的最大面积吧，那是否应该是S[5]=8呢？？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。