spark运行环境准备

  • 运行环境

我们的项目程序需要结合运行环境(资源)才能运行和计算,为此需要准备好环境。

xcall jps  查看机器进程;

目前有的模式是local模式,独立运行模式,和yarn模式(生产环境使用最多)

  • local模式(1台机器)

不需要其他节点资源可以在本地运行spark的环境,不同于在IDEA运行的local方式(开发环境),local模式,不同于前面篇章代码里的local(运行完就不存在了),这里的local模式是指在本地安装好什么时候使用都可以;;

一般步骤是在linux中是解压spark-3.0.0-bin-hadoop3.2.tgz文件放到指定位置--》启动local环境bin/spark-shell--》可以编写scala代码了;

退出:quit

也可提交应用spark-submit

启动成功后有经典显示spark标识,也可以访问webui监控页面;

  • Standalone模式(3台机器)

1. 只使用spark自身节点(既自身提供计算资源,无需其他框架提供资源,这个方式降低了和其他第三方资源框架的耦合性)运行的集群模式,体现master-slave模式,一般3台机器。

在linux中是解压spark-3.0.0-bin-hadoop3.2.tgz文件放到指定位置--->修改配置文件conf文件夹下的slaves.template(改名为slaves),增加配置内容--->spark-env.sh.template改名为spark-env.sh,增加配置内容 --->

分发spark-standalone(命令为:xsync spark-standalone) --->启动脚本 sbin/start-all.sh;

2. 可提交应用spark-submit,也可以访问webui监控页面

3. 配置历史服务(记录任务运行情况)--待学习

4. 配置高可用HA,一般采用zookeeper设置多个master节点,防止单个master节点发生故障,能有备用master提供服务。---配置操作待学习;

  • yarn模式(生产环境,1台机器)

1. 本质上spark是计算框架,并不是资源调度框架,所以它本身带有的资源调度并不是强项,为此需要融合其他专业资源调度框架yarn;

2.解压---修改配置文件---启动HDFS和YARN---提交应用---可以看webui页面---配置历史服务器存储日志和看任务执行情况(详细步骤待补充);

3.混合部署,需要启动HDFS和YARN进程;

  • windows模式

在windows系统下本地启动集群的方式

基于实际工作选的版本spark-1.6.0-bin-hadoop2.6.tgz 将解压到 F:\javasource\Spark\spark-1.6.0;

环境变量设置   控制面板\系统和安全\系统--高级系统设置

CLASSPATH 
  .;%JAVA_HOME%\bin;%JAVA_HOME%\lib\tools.jar;.;%SCALA_HOME%\bin;%SCALA_HOME%\lib\dt.jar;%SCALA_HOME%\lib\tools.jar.;

SCALA_HOME  F:\javasource\Scala

SPARK_HOME  F:\javasource\Spark\spark-1.6.0

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值