Spark简介
什么是Spark?
Apache Spark是一种多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。
Spark的安装
检查
检查HDFS、YARN环境
[vagary@vagary ~]$ jps
4736 NameNode
5490 NodeManager
5106 SecondaryNameNode
4870 DataNode
5881 Jps
5375 ResourceManager
检查Java环境
[vagary@vagary ~]$ java -version
java version "1.8.0_212"
Java(TM) SE Runtime Environment (build 1.8.0_212-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.212-b10, mixed mode)
Scala部署
下载Scala安装包
这些安装包在官网上都有
https://www.scala-lang.org/download/all.html,然后这里我们安装2.12.15版本的Scala
[vagary@vagary software]$ wget https://downloads.lightbend.com/scala/2.12.15/scala-2.12.15.tgz
解压Scala安装包
[vagary@vagary software]$ tar -zxvf scala-2.12.15.tgz -C ../app
创建软连接
[vagary@vagary app]$ ln -s scala-2.12.15 scala
配置环境变量
编辑全局变量文件,/etc/profile
[root@vagary ~]# vi /etc/profile
然后将环境变量加入
export SCALA_HOME=/home/vagary/app/scala
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SCALA_HOME/bin:$PATH
配置完成退出后,使环境变量生效:
[root@vagary ~]# source /etc/profile
然后验证一下,出现版本号就表示配置成功:
[root@vagary ~]# scala -version
Scala code runner version 2.12.15 -- Copyright 2002-2021, LAMP/EPFL and Lightbend, Inc.
Spark部署
首先下载Spark安装包,从官网https://spark.apache.org/downloads.html上看版本很多,这里我们选择3.2.1的版本进行下载
注:我们Hadoop版本是3.1.3,然后这里下的spark是3.2.1,因为是自己学的,可以这么去用,如果服务器级别的开发是不能这么下载的,还是要下对应版本,或者预编译的。
预编译版的Spark
预编译好的,没有我们要的版本,所以我们要下载,从官网上下
https://spark.apache.org/downloads.html,版本很多,这里我们就用3.2.1,然后选择包类型为Source code,然后进行下载
解压之后进入dev目录下,修改make-distribution.sh文件
[vagary@vagary dev]$ vi make-distribution