spark运行环境准备

最新推荐文章于 2024-05-03 07:17:51 发布

Icedeny

最新推荐文章于 2024-05-03 07:17:51 发布

阅读量206

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/Icedeny/article/details/117808575

版权

大数据专栏收录该内容

18 篇文章 0 订阅

订阅专栏

运行环境

我们的项目程序需要结合运行环境（资源）才能运行和计算，为此需要准备好环境。

xcall jps 查看机器进程；

目前有的模式是local模式，独立运行模式，和yarn模式（生产环境使用最多）

local模式（1台机器）

不需要其他节点资源可以在本地运行spark的环境，不同于在IDEA运行的local方式（开发环境），local模式，不同于前面篇章代码里的local（运行完就不存在了）,这里的local模式是指在本地安装好什么时候使用都可以；；

一般步骤是在linux中是解压spark-3.0.0-bin-hadoop3.2.tgz文件放到指定位置--》启动local环境bin/spark-shell--》可以编写scala代码了；

退出：quit

也可提交应用spark-submit

启动成功后有经典显示spark标识，也可以访问webui监控页面；

Standalone模式（3台机器）

1. 只使用spark自身节点（既自身提供计算资源，无需其他框架提供资源，这个方式降低了和其他第三方资源框架的耦合性）运行的集群模式，体现master-slave模式，一般3台机器。

在linux中是解压spark-3.0.0-bin-hadoop3.2.tgz文件放到指定位置--->修改配置文件conf文件夹下的slaves.template(改名为slaves)，增加配置内容--->spark-env.sh.template改名为spark-env.sh，增加配置内容 --->

分发spark-standalone(命令为：xsync spark-standalone) --->启动脚本 sbin/start-all.sh；

2. 可提交应用spark-submit，也可以访问webui监控页面

3. 配置历史服务（记录任务运行情况）--待学习

4. 配置高可用HA，一般采用zookeeper设置多个master节点，防止单个master节点发生故障,能有备用master提供服务。---配置操作待学习；

yarn模式（生产环境，1台机器）

1. 本质上spark是计算框架，并不是资源调度框架，所以它本身带有的资源调度并不是强项，为此需要融合其他专业资源调度框架yarn；

2.解压---修改配置文件---启动HDFS和YARN---提交应用---可以看webui页面---配置历史服务器存储日志和看任务执行情况（详细步骤待补充）；

3.混合部署，需要启动HDFS和YARN进程；

windows模式

在windows系统下本地启动集群的方式

基于实际工作选的版本spark-1.6.0-bin-hadoop2.6.tgz 将解压到 F:\javasource\Spark\spark-1.6.0；

环境变量设置控制面板\系统和安全\系统--高级系统设置

CLASSPATH 
  .;%JAVA_HOME%\bin;%JAVA_HOME%\lib\tools.jar;.;%SCALA_HOME%\bin;%SCALA_HOME%\lib\dt.jar;%SCALA_HOME%\lib\tools.jar.;

SCALA_HOME  F:\javasource\Scala

SPARK_HOME  F:\javasource\Spark\spark-1.6.0

Icedeny

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
spark运行环境准备

运行环境我们的项目程序需要结合运行环境（资源）才能运行和计算，为此需要准备好环境。xcall jps 查看机器进程；目前有的模式是local模式，独立运行模式，和yarn模式（生产环境使用最多）local模式（1台机器）不需要其他节点资源可以在本地运行spark的环境，不同于在IDEA运行的local方式（开发环境），local模式，不同于前面篇章代码里的local（运行完就不存在了）,这里的local模式是指在本地安装好什么时候使用都可以；；一般步骤是在linux中是解压spark-.
复制链接

扫一扫

专栏目录