手动启动
进入Spark安装根目录
cd ~/Rimon/spark-2.1.0-bin-hadoop2.7/
输入命令以独立模式(Standone Mode)启动Spark
./sbin/start-master.sh
启动成功后,主服务器将打印出一个spark:// HOST:PORT URL,它可以用来将worker连接到它,或者作为“master”参数传递给SparkContext。 可以在浏览器上输入服务器地址(默认情况下为http:// localhost:8080)找到此URL。
输入命令连接到上一步获取到的URL
./sbin/start-slave.sh <master-spark-URL>
连接成功后可以在浏览器的Workers部分看到新的节点,以及它的CPU和内存的数量(减去操作系统的一千兆字节)。
注:可以将以下配置选项传递给主服务器和工作线程
参数 | 说明 |
-h HOST, --host HOST | 要监听的主机名 |
-i HOST, --ip HOST | 要侦听的主机名(已弃用,使用-h或--host) |
-p PORT, --port PORT | 服务端口监听(默认:主机为7077,节点随机) |
--webui-port PORT | 用于Web UI的端口(默认值:主机为8080,节点为8081) |
-c CORES, --cores CORES | 允许Spark应用程序在机器上使用的总CPU内核(默认值:全部可用) |
-m MEM, --memory MEM | 允许Spark应用程序在机器上使用的内存总量,格式为1000M或2G(默认值:机器的总RAM减去1 GB) |
-d DIR, --work-dir DIR | 用于临时空间和作业输出日志的目录(默认值:SPARK_HOME / work) |
--properties-file FILE | 要加载的自定义Spark属性文件的路径(默认值:conf / spark-defaults.conf) |
集群启动脚本
要使用启动脚本启动Spark独立集群,您应该在Spark目录中创建一个名为conf / slaves的文件,该文件必须包含您打算启动Spark worker的所有计算机的主机名,每行一个。 如果conf / slaves不存在,则启动脚本默认为单个计算机(localhost),这对于测试很有用。
主机通过ssh访问每个工作机。 默认情况下,ssh并行运行,并且需要设置无密码(使用私钥)访问。 如果您没有无密码设置,可以设置环境变量SPARK_SSH_FOREGROUND,并为每个工作程序连续提供密码。
设置此文件后,可以使用以下shell脚本启动或停止集群,这些shell脚本基于Hadoop的部署脚本,并且在SPARK_HOME