Spark的安装
- Spark是一种基于内存的、分布式的、大数据处理框架,在 Hadoop 的强势之下,Spark凭借着快速、简洁易用、通用性以及支持多种运行模式四大特征,冲破固有思路成为很多企业标准的大数据分析框架。
Spark Standalone模式
-
解压缩
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
-
修改slaver文件
slaver1 slaver2
-
修改spark-env.sh文件
export JAVA_HOME=/usr/jdk1.8.0_144 export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077
-
分发到其他节点
scp -r /usr/spark-2.4.0-bin-hadoop2.7/ root@slaver1:/usr/ scp -r /usr/spark-2.4.0-bin-hadoop2.7/ root@slaver2:/usr/
-
启动Spark并且使用jps查看主节点是否有Master进程,从节点是否有Worker进程
start-all.sh
Spark On YARN模式
- 在前面的基础上在spark-env.sh文件上添加下面代码
export HADOOP_HOME=/usr/hadoop-2.7.1/ export HADOOP_CONF_DIR=/usr/hadoop-2.7.1/etc/hadoop
- 运行spark自带程序(启动hadoop集群,并且以Spark On YARN的cluster模式运行)
bin/spark-submit \ --class prg.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ /opt/spark-2.4.0-bin-hadoop-2.7/examples/jars/spark-examples_2.11-2.4.0.jar
Spark HA搭建
- 删除Spark On YARN 模式中spark-env.sh文件中的SPARK_MASTER_IP属性配置,添加下面属性
export SPARK_DAEMON_JAVA_OPTS= "-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slaver1:2181,slaver2:2181 -Dspark.deploy.zookeeper.dir=/spark"
- 启动Spark(在那个节点启动Master,活动状态的Master就在那个节点)
start-all.sh