Spark集群搭建，任务提交

最新推荐文章于 2022-08-08 11:25:36 发布

砥砺前行的疯子

最新推荐文章于 2022-08-08 11:25:36 发布

阅读量2k

点赞数

分类专栏： spark 程序人生-砥砺前行文章标签： spark

本文链接：https://blog.csdn.net/lpf787887/article/details/90648990

版权

程序人生-砥砺前行同时被 2 个专栏收录

34 篇文章 1 订阅

订阅专栏

spark

4 篇文章 0 订阅

订阅专栏

搭建spark2.3.1
基于HDFS_onyarn搭建sparkHA
必须基于JDK1.8
下面是每台节点上配置的角色

node01				node02				node03				node04				node05
master(active)		worker				worker				客户端				master(standby)

1、解压	

2、到/software/spark-2.3.1/conf配置
	cp slaves.template  slaves
	slaves配置
	
		node02
		node03 
		
	cp spark-env.sh.template spark-env.sh
	spark-env.sh   的40行左右配置
	
		#master主机是那台
		export SPART_MASTER_HOST=node01
		
		#提交任务的端口
		export SPARK_MASTER_PORT=7077
		
		#指定worker上可支配的核
		export SPARK_WORKER_CORES=2
		
		#worker可支配的内存
		export SPARK_WORKER_MEMORY=3g
		
		#指定JAVA_HOME
		export JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
		
		#指定spark的webUI端口（默认8080与tomcat）冲突
		export SPARK_MASTER_WEBUI_PORT=9999
		
		
		#spark.deploy.recoveryMode			指定恢复模式
		#spark.deploy.zookeeper.url 		指定zookeeper路径
		#spark.deploy.zookeeper.dir 		向zookeeper注册的地址
		export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node03:2181,node04:2181,node05:2181 -Dspark.deploy.zookeeper.dir=/MasterHa"

		
		
3、分发到node02，node03，node05
	node05下的/software/spark-2.3.1/conf/spark-env.sh修改
		#master主机是那台
		export SPART_MASTER_HOST=node05

4、启动
	node01的/software/spark-2.3.1/sbin
		./start-all.sh  启动
		node01的/software/spark-2.3.1/sbin
		./start-all.sh  启动

5、spark历史日志查看
	客户端node04配置
	到/software/spark-2.3.1/conf
	cp spark-defaults.conf.template spark-defaults.conf
		配置
		#开启历史日志服务
		spark.eventLog.enabled           true
		#历史日志存放位置（若不存在需要手动创建，否则会报错）
		spark.eventLog.dir               hdfs://mycluster/spark/log
		#历史日志读取位置
		spark.history.fs.logDirectory    hdfs://mycluster/spark/log
		#历史日志是否压缩保存，压缩后节约5倍磁盘空间，但需要时间解压
		spark.eventlog.compress          true
		
	/software/spark-2.3.1/sbin下开启历史日志服务
	./start-history-server.sh 
	

6、进入spark-client页面
	在/software/spark-2.3.1/bin下
	./spark-shell --master spark://node01:7077 --name aaa
	sc.textFile("hdfs://mycluster/spark/data/words").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()
	
7、在yarn上运行Spark需要在客户端的spark-env.sh配置

	#指定hadoop的配置目录
	export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

HDFS页面						node01:50070	
yarn作业页面					node01:8088	
修改端口后的spark作业页面		node01:9999
历史日志服务UI页面				node04:18080


spark作业提交
	/software/spark-2.3.1/bin
	
	./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar

砥砺前行的疯子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark集群搭建，任务提交

搭建spark2.3.1基于HDFS_onyarn搭建sparkHA必须基于JDK1.8下面是每台节点上配置的角色node01 node02 node03 node04 node05master(active) worker worker 客户端 master(standby)1、解压 2、到/software/spark-2.3.1/...
复制链接

扫一扫

专栏目录