Spark编程指引(一)-------------Spark的重要抽象，如何使用Spark。

最新推荐文章于 2024-04-02 09:15:00 发布

self-motivation

最新推荐文章于 2024-04-02 09:15:00 发布

阅读量2.8k

点赞数

分类专栏：大数据文章标签： hadoop spark 大数据 spark scala 分布式并行处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/happyAnger6/article/details/46448891

版权

大数据专栏收录该内容

22 篇文章 0 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文深入介绍了Spark的重要抽象——弹性分布式数据集(RDD)，包括其容错特性和创建方式，如并行集合和外部数据集。此外，还讲解了SparkContext的初始化、SparkShell的使用，以及如何通过Scala进行Spark应用程序开发。文中提到了广播变量和累加器这两种共享变量，展示了Spark与Hadoop的集成。

摘要由CSDN通过智能技术生成

这一章主要介绍SPARK中的重要抽象，然后用实例讲解如何使用SPARK进行分布式程序的开发。

概述

从上层来看，每个spark应用程序都是由驱动程序构成。这个驱动程序执行我们应用程序的main方法，并在集群上并行执行多种操作。

弹性分布式数据(RDD)是spark提供的重要抽象。它是分布在集群的节点之上的，可以并行计算的一组数据集合。RDDs可以由hadoop文件系统或者其它任何hadoop支持的文件系统上的文件创建，或者驱动程序中的Scala集合创建，或者由这些做转换操作得到。用户也可以将内存中的RDDs持久化，这样可以在并行处理中高效的恢复。最后，RDDs可以自动从失败的节点上还原。

Spark的另外一个抽象是可以在并行处理中使用的共享变量。缺省情况下，当spark在不同的节点上并行的执行一组任务中的函数时，它将函数中用到的每个变量的拷贝传递给每个任务。有些情况下，变量需要在任务之间共享，或者在任务和驱动程序之间共享。

Spark支持两种类型的共享变量：

1.广播变量：可以将共享变量缓存在所有节点上。

2.累加器：只能被用来增加操作，如计数和总和。

了解本专栏

超级会员免费看

self-motivation

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

self-motivation 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。