之前一直用的hadoop,最近用到Spark觉得很惊艳。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
正如下图所示spark和Hadoop的关系,spark的分析大多依赖于Hadoop的分布式文件系统HDFS,Hadoop的Mapreduce与spark都可以进行数据计算,而相比于Mapreduce,spark的速度更快并且提供的功能更加丰富。
下面就开始安装Spark。spark的安装比较简单,只需要Java JDK、hadoop的支持。
我是安装在linux系统下,已装有Hadoop 2.7.3,Java JDK 1.7。
1.从官网下载
首先到官网下载一份打包好的spark,如果不使用HDFS,可以随便下载一个适配任何Hadoop的版本的Spark。
2.下载完毕之后使用xftp直接复制到/home/hadoop目录下并解压
sudo tar -zxf ~/spark-2.2.1-bin-hadoop2.7.tgz
这一步见仁见智,安装xftp后上载下载都很直观
3.解压完成后即可
4.试试在命令行输入:spark-shell
出现这样就恭喜你安装成功啦(●'◡'●)
sparksql和任务划分在学习中,之后要是有总结再整理吧~~