1.几种运行模式介绍
Spark几种运行模式:
1)Local
2)Standalone(Spark自己的集群管理)
3)Yarn
4)Mesos(Spark初期支持)
下载IDEA并安装,可以百度一下免费文档。
2.spark Standalone模式配置并测试
1)jdk1.8已经安装
2)scala2.11.8已经安装
3)Hadoop2.6.0已经安装
4)Spark Standalone模式配置与测试
a)配置slave
vi slaves
bigdata-pro01.kfk.com
bigdata-pro02.kfk.com
bigdata-pro03.kfk.com
b)配置spark-env.sh
vi spark-env.sh
export JAVA_HOME=/opt/modules/jdk1.8.0_60
export SCALA_HOME=/opt/modules/scala-2.11.8
SPARK_CONF_DIR=/opt/modules/spark-2.2.0-bin/conf
SPARK_MASTER_HOST=bigdata-pro02.kfk.com
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
c)将spark 配置分发到其他节点
scp -r spark-2.2.0-bin bigdata-pro01.kfk.com:/opt/modules/
scp -r spark-2.2.0-bin bigdata-pro03.kfk.com:/opt/modules/
d)启动spark
sbin/start-all.sh
e)客户端测试
bin/spark-shell --master spark://bigdata-pro02.kfk.com:7077
d)集群运行
bin/spark-submit --master spark://bigdata-pro02.kfk.com:7077 --deploy-mode cluster /opt/jars/Spark.jar file:///opt/datas/test.txt
运行这种方式前要将/opt/jars/Spark.jar分发到所有节点!
3.spark on yarn模式配置并测试
1)注意hadoop配置文件中jdk版本是否与当前jdk版本一致
2)spark on yarn 模式启动并且提交作业
#启动
启动之前先配置HADOOP_CONF_DIR项
bin/spark-shell --master yarn --deploy-mode client
#报错
解决方案见博文:Spark on Yarn运行错误:Yarn application has already ended! It might have been killed or unable to launch
#重新启动yarn和spark
#测试
scala> val rdd = spark.read.textFile("file:///opt/datas/test.txt")
rdd: org.apache.spark.sql.Dataset[String] = [value: string]
scala> rdd.count
res0: Long = 7
#提交作业
再这之前请修改一下源代码,并且重新编译上传jar包
bin/spark-submit --class com.zimo.spark.Test --master yarn --deploy-mode cluster /opt/jars/Spark.jar file:///opt/datas/test.txt
注意:com.zimo.spark.Test为对应jar包的Class类的路径。
成功!
以上就是博主为大家介绍的这一板块的主要内容,这都是博主自己的学习过程,希望能给大家带来一定的指导作用,有用的还望大家点个支持,如果对你没用也望包涵,有错误烦请指出。如有期待可关注博主以第一时间获取更新哦,谢谢!同时也欢迎转载,但必须在博文明显位置标注原文地址,解释权归博主所有!