Spark 快速入门
Spark 快速⼊门
设置Spark
在本机设置和运⾏Spark⾮常简单。你只需要下载⼀个预构建的包,只要你安装了Java
6+和Python 2.6+ ,就 以在Windows、Mac OS X和Linux上运⾏Spark 。确保j ava程序
在P TH环境变量中,或者设置了J V _HOME环境变量。类似的,python也要在
P TH 中。
假设你已经安装了Java和Python :
1. 访问Spark下载页
2. 选择Spark最新发布版(本⽂写作时是1.2.0) ,⼀个预构建的Hadoop 2.4包,直接
下载。
现在,如何继续依赖于你的操作系统,靠你⾃⼰去探索了。Windows⽤户 以在评论
区对如何设置的提⽰进⾏评论。
⼀般,我的建议是按照下⾯的步骤(在POSIX操作系统上) :
1.解压Spark
~$ tar -xzf spark-1.2.0-bin-hadoop2.4 .tgz
2.将解压⽬录移动到有效应⽤程序⽬录中(如Windows上的
~$ mv spark-1.2.0-bin-hadoop2.4 /srv/spark-1.2.0
3.创建指向该Spark版本的符号链接到
Spark ,然后修改链接来管理Spark版本,⽽不⽤更改路径或环境变量。
~$ ln -s /srv/spark-1.2.0 /srv/spark
4 .修改B SH配置,将Spark添加到P TH 中,设置SP RK_HOME环境变量。这些⼩技
巧在命令⾏上会帮到你