Spark—Spark编程的核心概念

最新推荐文章于 2024-06-06 18:52:50 发布

「已注销」

最新推荐文章于 2024-06-06 18:52:50 发布

阅读量274

点赞数

分类专栏： Spark 文章标签： Spark核心编程概念 Spark核心流程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shine302/article/details/79983602

版权

Spark 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

通过一个驱动器程序创建一个SparkContext 和一系列RDD，然后进行并行操作。

从上层来看，每个Spark 应用都由一个驱动器程序（driver program）来发起集群上的各种
并行操作。驱动器程序包含应用的main 函数，并且定义了集群上的分布式数据集，还对这
些分布式数据集应用了相关操作。
驱动器程序通过一个SparkContext 对象来访问Spark。这个对象代表对计算集群的一个连

接。shell 启动时已经自动创建了一个SparkContext 对象，是一个叫作sc 的变量。

一旦有了SparkContext，你就可以用它来创建RDD。在例2-1 和例2-2 中，我们调用了
sc.textFile() 来创建一个代表文件中各行文本的RDD。我们可以在这些行上进行各种操
作，比如count()。

要执行这些操作，驱动器程序一般要管理多个执行器（executor）节点。

最后，我们有很多用来传递函数的API，可以将对应操作运行在集群上

Spark 会自动将函数（比如line.contains("Python")）发到各个执行器节点上。这样，你就可以在单一的
驱动器程序中编程，并且让代码自动运行在多个节点上。

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark—Spark编程的核心概念

通过一个驱动器程序创建一个SparkContext 和一系列RDD，然后进行并行操作。从上层来看，每个Spark 应用都由一个驱动器程序（driver program）来发起集群上的各种并行操作。驱动器程序包含应用的main 函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。驱动器程序通过一个SparkContext 对象来访问Spark。这个对象代表对计算...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。