Spark的原理和部署（一），local

最新推荐文章于 2023-12-08 18:46:46 发布

冷昕

最新推荐文章于 2023-12-08 18:46:46 发布

阅读量498

点赞数

本文链接：https://blog.csdn.net/qq_35710240/article/details/79848073

版权

本文将介绍Apache Spark的基本原理，并详细阐述如何在本地环境进行部署，通过编辑~/.bashrc文件来设置环境变量。

摘要由CSDN通过智能技术生成

参考书籍：Hadoop Spark大数据巨量分析与机器学习林大贵

spark的cluster模式架构图，其中：

DriverProgram就是程序员所设计的Spark程序，在Spark程序中必须定义sparkcontext，他是开发Spark应用程序的入口。

SparkContext通过Cluster Manager管理整个集群，集群中包含多个worker节点，每个工作节点都有executer负责执行任务。

Spark的安装过程：

Spark本身是以Scala开发的，所以必须先安装Scala，安装在master虚拟机上：

wh@master:/usr/local/hadoop$ wget http://www.scala-lang.org/files/archive/scala-2.11.12.tgz

从网页下载sacala 2.11.12版本

解压，移动到 /usr/local/scala tar -xvf scala-2.11.12.tgz sudo mv file dir

设置Scala用户环境变量：

sudo gedit ~/.bashrc

#SCALA Variables
export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin
#SCALA Variables

source ~/.bashrc 刷新环境变量。这样SCALA就安装完成，可以在任何目录下执行scala程序。

wh@master:~/下载$ source ~/.bashrc wh@master:~/下载$ scala cat: /usr/lib/jvm/java-8-openjdk-amd64/release: 没有那个文件或目录 Welcome to Scala 2.11.12 (OpenJDK 64-Bit Server VM, Java 1.8.0_162). Type in expressions for evaluation. Or try :help. scala> 1+1 res0: Int = 2 scala> q <console>:12: error: not found: value q q ^ scala> :q wh@master:~/下载$

(有点慢啊这个scala)

安装Spark

wh@master:~/下载$ wget https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.6.tgz

注意在页面中选择对应于hadoop的版本（另外这个这么小么，只有200K+，果然出问题了，这个这是个链接，导致不能tar）

查了以下，spark1.X在2016年以后就不更新了，所以直接上spark2.3。有什么问题再说吧。

链接：http://spark.apache.org/downloads.html 此处下载的是usr-provide版本，可以和任何版本hadoop版本兼容。

然后解压，移动到 /usr/local/spark (和上述scala命令类似)

进入/usr/local/spark/conf 执行：cp spark-env.sh.template spark-env.sh

最后一行加入：