大数据之PySpark的RDD创建和分区

敲键盘的杰克

已于 2023-06-23 17:07:48 修改

阅读量563

点赞数 1

分类专栏： Spark 文章标签：大数据 hadoop spark

于 2023-05-15 00:01:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43339889/article/details/130653205

版权

Spark 专栏收录该内容

10 篇文章 1 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

前言
一、RDD创建
二、RDD分区数
总结

前言

上篇文章对PySpark的RDD做了简单的介绍，以及总结了RDD的特性，该篇文章主要介绍RDD的创建方式，PySpark的RDD创建方式主要有两种，一种是在程序中直接创建，另一种是通过加载外部系统创建。

一、RDD创建

创建SparkContext对象
SparkContext为Spark程序的入口，代表和Spark集群的链接，Spark集群中通过SparkContext创建RDD，创建SparkContext对象前需要先创建SparkConf，该SparkConf对象用来传递应用的基本信息。
并行化方式创建RDD
第一步已经得到SparkContext对象，通过该对象的parallelize方法即可创建RDD，该方法需要传入可迭代的对象或集合；

使用SparkContext对象时可以指定分区数量
读取小文件创建RDD
实际需求中，有时需要读取大量的小文件，文件不大，但数量很多，如果一个文件读取为RDD的一个分区，处理数据效率较为低下，此时可以使用S

了解本专栏

超级会员免费看

敲键盘的杰克

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
大数据之PySpark的RDD创建和分区

RDD的创建和分区
复制链接

扫一扫

专栏目录

敲键盘的杰克 CSDN认证博客专家 CSDN认证企业博客

码龄6年

57: 原创

3万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

5740: 积分

125: 粉丝

135: 获赞

22: 评论

88: 收藏

私信

关注

热门文章

分类专栏

Kafka 付费 4篇
Spark 付费 10篇
Hive 付费 7篇
Hadoop 付费 7篇
Java 付费 13篇
Python 1篇
总结 1篇
大数据 2篇
Phoenix 4篇
ZooKeeper 3篇
HBase 3篇
Linux 2篇
Doris 1篇

最新评论

大数据之RDD的算子分类
Damon小智: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
Python学习之路
Gauss松鼠会: 很详细的记录，边学边记录，很好的内容，赞
大数据之PySpark的RDD创建和分区
Gauss松鼠会: 每一个步骤都很详细，很好的指导
我的创作纪念日
Gauss松鼠会: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。
大数据导航栏帖
Damon小智: 博主的文章一直都是我的学习圣经，内容详实，通俗易懂，你的博客内容深入浅出，总是让我不再感到学习的困难，博主的文章总是充满了深度和洞见，让我对这个领域有更深刻的理解。希望博主能一如既往地分享知识，帮助更多人成长。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

敲键盘的杰克 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。