Spark运行环境
Spark 是Scala写的, 运行在JVM上。所以运行环境是Java6或者以上。
如果想要使用 Python API,需要安装Python 解释器2.6版本或者以上。
目前Spark(1.2.0版本) 与Python 3不兼容。
Spark下载
下载地址:http://spark.apache.org/downloads.html,选择Pre-built for Hadoop 2.4 and later 这个包,点击直接下载,这会下载一个spark-1.2.0-bin-hadoop2.4.tgz的压缩包
搭建Spark不需要Hadoop,如果你有hadoop集群或者hdfs,你可以下载相应的版本。
解压:tar -zxvf spark-1.2.0-bin-hadoop2.4.tgz
Spark的Shells
Spark的shell使你能够处理分布在集群上的数据(这些数据可以是分布在硬盘上或者内存中)。
Spark可以把数据加载到工作节点的内存中,因此,许多分布式处理(甚至是分布式的1T数据的处理)都可以在几秒内完成。
上面的特性,使迭代式计算,实时查询、分析一般能够在shells中完成。Spark提供了Python shells和 Scala shells。
打开Spark的Scala Shell:
到Spark目录bin/pysparkbin/spark-shell打开Scala版本的shell
例子:
scala> val lines = sc.textFile(“../../testfile/helloSpark”) // 创建一个叫lines的RDD
lines