Spark
是第一个脱胎于该转变的快速、
通用分布式计算范式,
并且很快流行起来。
Spark
使用函数式编程范式扩展了
MapReduce
模型以支持更多计算类型,
可以涵
盖广泛的工作流,这些工作流之前被实现为
Hadoop
之上的特殊系统。
Spark
使
用内存缓存来提升性能,因此进行交互式分析也足够快速
(
就如同使用
Python
解释器,
与集群进行交互一样
)
。
缓存同时提升了迭代算法的性能,
这使得
Spark
非常适合数据理论任务,特别是机器学习。
本文中,
我们将首先讨论如何在本地机器上或者
EC2
的集群上设置
Spark
进行简
单分析。然后,我们在入门级水平探索
Spark
,了解
Spark
是什么以及它如何工
作
(希望可以激发更多探索)
。
最后两节我们开始通过命令行与
Spark
进行交互,
然后演示如何用
Python
写
Spark
应用,并作为
Spark
作业提交到集群上。
设置
Spark
在本机设置和运行
Spark
非常简单。
你只需要下载一个预构建的包,
只要你安装
了
Java
6+
和
Python
2.6+
,就可以在
Windows
、
Mac
OS
X
和
Linux
上运行
Spark
。
确保
java
程序在
PATH
环境变量中,或者设置了
JAVA_HOME
环境变量。类似的,
python
也要在
PATH
中。