Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop
Hadoop的下载地址:http://hadoop.apache.org/
Spark的下载地址:http://spark.apache.org/
同时也可使用Ambari安装Hadoop生态系统的所有需要的组件,参看文章:http://blog.csdn.net/wee_mita/article/details/64121884
Spark在生产环境中,主要部署在安装Linux系统的集群中。在Linux系统中安装Spark需要预先安装JDK、Scala等所需要的依赖。
由于Spark是计算框架,所以需要预先在集群内有搭建好存储数据的持久化层,如HDFS、Hive、Cassandra等,最后可以通过启动脚本运行应用。
1.安装JDK
1-1 使用命令getconf LONG_BIT
查看Linux系统的位数,然后下载相应版本的JDK
1-2 Oracle JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html
1-3 把下载的jdk-8u131-linux-x64.tar.gz安装包解压到相应的目录
tar -zxvf jdk-8u131-linux-x64.tar.gz
</