【Spark】学习笔记二——RDDs

最新推荐文章于 2024-08-01 09:26:14 发布

Nina0703

最新推荐文章于 2024-08-01 09:26:14 发布

阅读量489

点赞数

分类专栏： Spark 文章标签： Sparrk RDDs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41618373/article/details/83416371

版权

本文介绍了Spark中的核心概念RDD，包括RDD的定义、创建方式、基本操作（Transformation和Action）、RDD的特性如延迟计算和血统关系图，以及KeyValue对的操作，如reduceByKey和groupByKey等。

摘要由CSDN通过智能技术生成

一、一些对象

1.Driver Program：包含程序的main()方法，RDDs的定义和操作，它管理很多节点，我们称之为executors
2.SparkContext：Driver Program通过SparkContext对象访问Spark，SparkContext对象代表和一个集群的连接
3.在shell中SparkContext对象自动创建好了，就是sc，可以在shell中直接使用sc

二、RDDs(Resilient distributed dataset——弹性分布式数据集)

1.RDDs的介绍：
1）并行的分布在集群中
2）RDDs是Spark分发数据和计算的基础抽象类
3）一个RDD是不可改变的分布式集合对象
4）Spark中，所有的计算都是通过RDDs的创建、转换等操作完成的
5）一个RDD内部由许多==partitions(分片)==组成

分片：
每个分片包括一部分数据，partitions可在集群不同节点上计算
分片是Spark并行处理的单元，Spark会顺序的、并行的处理分片

2.RDDs的创建方法：
1）把一个已存在的集合传给SparkContext的parallelize()方法，可用来测试

val rdd=sc.parallelize(Array(1,2,2,4),4)	----第一个参数：待并行化处理的集合

2&

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。