RDDs介绍

最新推荐文章于 2022-07-14 09:51:57 发布

南海有鹏

最新推荐文章于 2022-07-14 09:51:57 发布

阅读量1.8k

点赞数

分类专栏：机器学习文章标签： spark

本文链接：https://blog.csdn.net/u012369559/article/details/109559864

版权

Driver program：包含程序的main()方法，RDDs的定义和操作。管理很多节点，称作为executors。如下图展示，SparkContext：Driver program通过SparkContext对象访问Spark。 SparkContext对象表示和一个集群的链接。在Shell中SparkContext自动创建，即sc。RDDs：Resilient distributed datasets (弹性分布式数据集，简写RDDs)。 RDDs并行的分布在整个集群

摘要由CSDN通过智能技术生成

Driver program：

包含程序的main()方法，RDDs的定义和操作。
管理很多节点，称作为executors。如下图展示，

SparkContext：

Driver program通过SparkContext对象访问Spark。
SparkContext对象表示和一个集群的链接。
在Shell中SparkContext自动创建，即sc。

RDDs：

Resilient distributed datasets (弹性分布式数据集，简写RDDs)。
RDDs并行的分布在整个集群中。
RDDs是Spark分布数据和计算的基础抽象类。
一个RDD是一个不可改变的分布式集合对象。
Spark中，所有计算是通过RDDs的创建，转换，操作完成的。
一个RDD内部有许多partitions（分片）组成。每个分片包含一部分数据，partitions可在集群不同节点上计算；分片是Spark并行处理的单元，spark顺序的，并行的处理分片。

RDDs的创建方法：

把一个存在的集合传给SparkContext的parallelize()方法，测试用val rdd=sc.parallelize(Array(1,2,2,4),4)，第一个参数：待并行化处理的集合，第二个参数

最低0.47元/天解锁文章

南海有鹏

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RDDs介绍

Driver program：包含程序的main()方法，RDDs的定义和操作。管理很多节点，称作为executors。如下图展示，SparkContext：Driver program通过SparkContext对象访问Spark。 SparkContext对象表示和一个集群的链接。在Shell中SparkContext自动创建，即sc。RDDs：Resilient distributed datasets (弹性分布式数据集，简写RDDs)。 RDDs并行的分布在整个集群
复制链接

扫一扫

专栏目录