Spark编程指引(一)-------------Spark的重要抽象,如何使用Spark。

本文深入介绍了Spark的重要抽象——弹性分布式数据集(RDD),包括其容错特性和创建方式,如并行集合和外部数据集。此外,还讲解了SparkContext的初始化、SparkShell的使用,以及如何通过Scala进行Spark应用程序开发。文中提到了广播变量和累加器这两种共享变量,展示了Spark与Hadoop的集成。
摘要由CSDN通过智能技术生成

这一章主要介绍SPARK中的重要抽象,然后用实例讲解如何使用SPARK进行分布式程序的开发。


概述

从上层来看,每个spark应用程序都是由驱动程序构成。这个驱动程序执行我们应用程序的main方法,并在集群上并行执行多种操作。


弹性分布式数据(RDD)是spark提供的重要抽象。它是分布在集群的节点之上的,可以并行计算的一组数据集合。RDDs可以由hadoop文件系统或者其它任何hadoop支持的文件系统上的文件创建,或者驱动程序中的Scala集合创建,或者由这些做转换操作得到。用户也可以将内存中的RDDs持久化,这样可以在并行处理中高效的恢复。最后,RDDs可以自动从失败的节点上还原。


Spark的另外一个抽象是可以在并行处理中使用的共享变量。缺省情况下,当spark在不同的节点上并行的执行一组任务中的函数时,它将函数中用到的每个变量的拷贝传递给每个任务。有些情况下,变量需要在任务之间共享,或者在任务和驱动程序之间共享。

Spark支持两种类型的共享变量:

1.广播变量:可以将共享变量缓存在所有节点上。

2.累加器:只能被用来增加操作,如计数和总和。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

self-motivation

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值