Spark的安装与配置

最新推荐文章于 2023-09-24 23:05:03 发布

KevinWDong

最新推荐文章于 2023-09-24 23:05:03 发布

阅读量383

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/chen7588693/article/details/86495213

版权

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.前期准备

准备三台linux服务器，安装好jdk,最好也安装好hadoop，到时候使用spark的时候需要使用到hdfs。
下载安装包
到spark官网下载spark安装包
http://spark.apache.org/downloads.html
配置spark
spark 的部署模式有Local、Local-Cluster、Standalone、Yarn、Mesos,我们选择最具代表性的Standalone集群部署模式。
将下载好的spark安装包解压到linux中，进入到spark安装目录

 	cd /opt/module/spark-2.1.1-bin-hadoop2.7/conf/

在这里插入图片描述

将slaves.template复制为slaves
将spark-env.sh.template复制为spark-env.sh
修改slave文件，在slave文件里面添加你的三台集群机器
在这里插入图片描述
然后按上面那种方式，修改spark.env.sh
在文件里面添加以下两行代码

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

SPARK_MASTER_HOST代表你所配置的master的机器名
SPARK_MASTER_PORT代表maser使用的端口号

配置分发
将配置好的spark文件分发到另外两台机器上

scp /opt/module/spark-2.1.1-bin-hadoop2.7/conf atguigu@hadoop103:/opt/module/spark-2.1.1-bin-hadoop2.7/

scp /opt/module/spark-2.1.1-bin-hadoop2.7/conf atguigu@hadoop104:/opt/module/spark-2.1.1-bin-hadoop2.7/

4.启动spark
至此，spark集群配置完毕，目前是1个master ，2个worker 在hadoop102 上启动spark集群

sbin/start-all.sh

使用jps命令查看当前进程
在这里插入图片描述
也可以在web浏览器端查看spark集群状态
http://hadoop102:8080

到此，spark集群安装完毕
需要注意的是，在启动spark集群时，如果遇到"JAVA_HOME not set" 问题时，在sbin 目录下的spark-config.sh 文件中加入JAVA_HOME的配置。如下：
export JAVA_HONE=jdk路径

KevinWDong

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark的安装与配置

一、Spark 概述1.什么是sparkSpark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、Graph...
复制链接

扫一扫

专栏目录