一、spark的安装模式
1、本地模式(local),单点模式,非分布式模式,只需要用到一台机器;
2、standalone模式,是spark自己实现的独立调度器,它是一个资源调度框架;Spark可以通过部署与Yarn的架构类似的框架来提供自己的集群模式,该集群模式的架构设计与HDFS和Yarn大相径庭,都是由一个主节点多个从节点组成,在Spark 的Standalone模式中,主节点为master;从节点为worker;
3、Spark on Yarn模式和Spark on Mesos模式;
二、spark的standalone模式安装和启动
1、把 spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz 包解压到 目录下
tar spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6
2、/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/conf/slaves 文件,里面是域名列表,表示从节点,这里只填1个
hadoop-senior.ibeifeng.com
3、log4j.properties.template 复制一份,并重命名为 log4j.properties;表示启用日志;
4、spark-env.sh.template 复制一份;并重命名为 spark-env.sh;增加以下内容:
JAVA_HOME=/opt/modules/jdk1.7.0_79
SCALA_HOME=/opt/modules/scala-2.10.4
HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop
SPARK_MASTER_IP=hadoop-senior.ibeifeng.com
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=2g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1
SPARK_WORKER_DIR=1
5、spark-defaults.conf.template 复制一份;并重命名为 spark-defaults.conf;在最后一行加上内容:
spark.master spark://hadoop-senior.ibeifeng.com:707