java spark环境配置文件_Spark安装及环境配置

前篇文章介绍了scala的安装与配置、接下来介绍一下spark的安装及环境配置。

1、Apache spark下载

在浏览器输入网址https://spark.apache.org/downloads.html进入spark的下载页面,如下图所示:

58682131_202005140931590401W00RWUCTG5WDYCS05L_wm.jpg

下载时需要注意的是在第1步选择完spark版本之后的第2步“choose

a package type ”时,spark与hadoop版本必须配合使用。因为spark会读取hdfs文件内容而且spark程序还会运行在HadoopYARN上。所以必须按照我们目前安装的hadoop版本来选择package type。我们目前使用的hadoop版本为hadoop2.7.5,所以选择Pre-built for Apache Hadoop

2.7 and later。

点击第3步Download Spark后的连接 spark-2.1.2-bin-hadoop2.7.tgz进入下图所示的页面。在国内我们一般选择清华的服务器下载,这下载速度比较快,连接地址如下:

https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.1.2/spark-2.1.2-bin-hadoop2.7.tgz

58682131_202005140931590479M3NXFNB3FLZIIDIGG1_wm.jpg

2、安装spark

通过WinSCP将spark-2.1.2-bin-hadoop2.7.tgz上传到master虚拟机的Downloads目录下,然后解压到用户主目录下并更改解压后的文件名(改文件名目的是名字变短,容易操作)。解压过程需要一点时间,耐心等待哈。

58682131_2020051409315905109BP1CXRYB6XQI5SHYM_wm.jpg

解压完成后通过ls命令查看当前用户主目录,如下图所示增加了spark-2.1.2-bin-hadoop2.7文件目录

58682131_202005140931590573U7MJVFSP5C90SH2RFY.jpg

通过mv命令更改spark-2.1.2-bin-hadoop2.7名为spark

58682131_2020051409315905893JMZVV34HSY9C4WMPV.jpg

3、配置spark环境变量

通过命令vim .bashrc编辑环境变量

58682131_202005140931590604YP2TU850PC9M48LOHR.jpg

在文件末尾增加如下内容,然后保存并退出

58682131_202005140931590604UFL0I2WV4RBP4KO8JA.jpg

重新加载环境变量配置文件,使新的配置生效(仅限当前终端,如果退出终端新的环境变量还是不能生效,重启虚拟机系统后变可永久生效)

58682131_202005140931590620GSMY80PHE6C2TL3LQX.jpg

通过spark-shell展示spark是否正确安装,Spark-shell是添加了一些spark功能的scala REPL交互式解释器,启动方式如下图所示。启动过程中会打印spark相关信息如版本。

58682131_2020051409315906369YKHST855V20BU6DN7_wm.jpg

退出spark-shell使用命令:quit

58682131_202005140931590651I0UY9L0A0UV4Q745N7.jpg

4、在其他节点安装spark

在master节点安装完成后只需复制spark文件目录及.bashrc文件到其他节点即可,具体操作命令可按下图操作

58682131_202005140931590667N3DVGFL6ML6ADPSQOM.jpg

58682131_202005140931590682ITJL8ULCVW1GJBYTPM.jpg

58682131_2020051409315906980UXXW4UYRUDOR0RTI5.jpg

最后重启slave1、slave2即可使配置文件生效。到这里spark安装完成,接下来就是根据spark运行模式来配置spark相关配置文件使集群正常工作。

5、配置spark相关文件

第一步:spark-env.sh文件

通过环境变量配置确定的Spark设置。环境变量从Spark安装目录下的conf/spark-env.sh脚本读取。

可以在spark-env.sh中设置如下变量:环境变量含义

JAVA_HOMEJava安装路径

SCALA_HOMEscala安装路径

HADOOP_HOMEHadoop安装路径

Spark相关配置环境变量含义

SPARK_HOMESpark安装路径

SPARK_WORKER_CORES每个work使用的CPU核心数

SPARK_WORKER_INSTANCES设置实例数

SPARK_WORKER_MEMORYWork使用的内存

SPARK_MASTER_IP设置master 的IP或者服务区名称

首先开启三个虚拟机master 、slave1、slave2,接下来在master主机上配置,配置完成之后将spark/conf发送到其他节点即可。

我们先跳转到spark/conf目录下看看我们需要配置哪些文件。如下图所示通过ls命令查看文件列表,我们今天主要用到的有spark-env.sh.template、slaves.template,我们还可以用log4j.properties.template来修改输出信息。

58682131_202005140931590714VI7O56MGYYZFXA4QKD.jpg

注意,当Spark安装时,conf/spark-env.sh默认是不存在的。你可以复制conf/spark-env.sh.template创建它。

58682131_202005140931590729ZXSXL9PVCHTF5RMPRI.jpg

通过vim编辑器编辑spark-env.sh,在终端中我们可以只输入前几个字母然后按tab键来给我们自动补全。

58682131_2020051409315907458BLJP4W6KYLC71N21Q.jpg

在文件末尾添加如下内容,保存并退出

58682131_202005140931590761SB1RDZEK6V2WMIYWMX_wm.jpg

第二步:log4j.properties

spark在启动过程中会有大量日志信息打印出来,如果我们只想看警告或者错误,而不是一般信息可以在log4j.properties中设置,同样的spark为我们提供了一个模板文件,需要通过模板复制出log4j.properties

58682131_202005140931590776PK0A1KS4SNWRB4VWBL.jpg

设置方法为将文件第二行INFO改为WARN

58682131_202005140931590792KEWGITZQ38D9HEX4SX.jpg

更改完成后文件内容如下图所示,记得保存并退出。

58682131_202005140931590807G94ALUAXXRUFQV2BQU.jpg

第三步:slaves文件

slaves文件主要作用是告诉spark集群哪些节点是工作节点worker,这里slaves文件也需要由模板文件复制过来,操作如下图所示

58682131_202005140931590823DL0KNL2C9CVKDBQQCW.jpg

使用vim编辑器编辑slaves

58682131_2020051409315908391I9BJZRM5OKA6A29QZ.jpg

文件中输入如下内容,表示工作节点为slave1和slave2,保存并退出。

58682131_202005140931590854EY3HVZYS07M55N8DX9.jpg

最后将spark/conf目录移动到slave1

slave2节点spark目录下,操作如下图所示

58682131_202005140931590870YLMLTEKRGX4QD5D8O2_wm.jpg

现在就可以启动集群了,先启动hadoop集群(也可以不用hadoop,但是在实际应用中大部分spark还是会用到hadoop的资源管理YARN)再启动spark集群,操作如下所示。

58682131_202005140931590901SWQ4TW6MEE66BEMENU_wm.jpg

通过jps查看启动的进程,在master节点上spark的进程是Master

,在slave节点上spark相关进程是Worker。

58682131_202005140931590917742PEWURX0JUAUQNW5_wm.jpg

停止集群时要先停止spark集群

58682131_2020051409315909483ZM3ASRJY8GF57A6ZK.jpg

再停止hadoop集群

58682131_202005140931590964AD0SGU17I8STMMA90M_wm.jpg

spark相关的内容就到这里,关于spark的详细应用会有单独系列文章介绍,敬请期待。

小提示:每天虚拟机和集群不用了尽量正常关闭,而不是暴力关闭Vmware软件。不然集群容易崩溃😂。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值