一、前言
目前 Apache Spark 支持三种分布式部署方式,分别是:
- standalone
- spark on mesos
- spark on YARN
其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一个集群资源,最大的好处是降低运维成本和提高资源利用率(资源按需分配)。
具体的区别这里先不讨论,本篇主要介绍 standalone 模式的集群搭建。
二、准备机器
192.168.11.72 master
192.168.11.73 spark1
192.168.11.74 spark2
192.168.11.75 spark3
192.168.11.76 spark4
将上述映射关系分别保存到 每台机器的 /etc/hosts 文件中。
三、创建 spark 用户,配置免密登录
创建 spark 用户:
sudo adduser spark
设置好密码后一路回车即可。
然后配置免密登录: