作者系统:ubuntu15.10,但是以下操作具一定普适性。
说明;
1.为了进行Spark的入门学习,我们就安装Spark1.2版本,Hadoop版本为2.4及以后;
2.由于spark是基于java虚拟机(jvm)因此你必须安装上java 6及更新版本,具体安装请参考我的转载博文:
http://blog.csdn.net/gendlee1991/article/details/51306910
3.Spark的原生语言是Scala,但是有python和java等接口,非常方便,因此不必像其他博文中介绍的一定要安装scala(对初学者尽量简化安装复杂性)
ubuntu自带的python 2.7.6就足够操作Spark;
来吧,安装!
最重要的一步:下载资源!
Spark官方网站(各个版本):http://spark.apache.org/downloads.html
Choose a Spark release:1.2.0 DEC 18 2014
Choose a package type:Pre-build for Hadoop 2.4 and later (为hadoop2.4及之后的版本预编译的版本)
Choose a download type:Direct Download
如图:
下载好后进入第二步。
第二步:找到下载的文件spark-1.2.0-bin-hadoop2.4.tgz所在的文件夹,进行解压操作:
$sudo tar -zxvf spark-1.2.0-bin-hadoop2.4.tgz
解压好可以直接运行(什么?!这就可以啦?不是没安装吗?spark的安装就是这么简单)。
第三步:直接进入带解压后的spark-1.2.0-bin-hadoop2.4文件,再进入bin文件夹,看看里面的shell脚本,OK,现在我们来运行一下一个叫做:pyspark的shell脚本:
$./pyspark
你将看到:
看到这里,恭喜你,你已经安装好了spark的本地模式,可以进行spark的入门学习了(主要是spark shell),spark真正让人上瘾的是应用再集群上,进行并行运算。
本文内容参考:《Learning Spark:Lighting-fast Data-analysis》,转载请注明来自本书以及本博。