一、Spark集群安装部署
Spark集群有多种部署方式,比较常见的有Standalone模式和ON YARN模式
1、Standalone模式
Standalone模式就是说部署一套独立的Spark集群,后期开发的Spark任务就在这个独立的Spark集群中执行
2、ON YARN模式
ON YARN模式是说使用现有的Hadoop集群,后期开发的Spark任务会在这个Hadoop集群中执行,此时这个Hadoop集群就是一个公共的了,不仅可以运行MapReduce任务,还可以运行Spark任务,这样集群的资源就可以共享了,并且也不需要再维护一套集群了,减少了运维成本和运维压力,一举两得。
所以在实际工作中都会使用Spark ON YARN模式
不过为了考虑到大家可能会有一些特殊场景确实要使用standalone模式部署独立的spark集群,所以在这,针对这两种部署模式我们都讲一下。
3、下载安装包
那在具体安装部署之前,需要先下载Spark的安装包。
如果不想去官网下载,spark-2.4.3-bin-hadoop2.7.tgz
版本百度网盘链接如下:
链接:https://pan.baidu.com/s/1T0lkgadUAnO3fjqREUprbw?pwd=b1w7
提取码:b1w7
进到spark的官网,点击download按钮。