任务背景
Spark的运行模式基本可以分为两种:
本地模式 即Driver程序只在本机运行
集群模式 即Dirver程序会在集群中运行,具体到集群模式,又可以分为spark集群、MESOS、YARN等。
作为初学者入坑,自然是本地模式调通最方便。
任务需求
服务器主机 | master |
---|---|
NameNode | 是 |
SecondaryNameNode | 是 |
dataNode | 是 |
ResourceManager | 是 |
NodeManager | 是 |
任务步骤
1.下载版本选型说明
2.解压缩spark-2.2.0-bin-hadoop2.7.tgz
3.修改spark配置文件
4.配置环境变量
5.启动spark
6.开启spark-shell会话
7.运行SparkPi
任务实施过程
1.搭建Spark Local模式环境
知识点
1)文件的解压
2)SparkPi例子的运行
实验目的
1)掌握使用文件的解压以及SparkPi例子的运行
实验环境
1)Oracle Linux 7.4
2)Jdk1.8.0_171
3)Spark2.2.0
实验步骤
1)Spark单机版的搭建,常用于本地开发测试
1.Spark使用Scala语言编写,运行在Java虚拟机(JVM)当中,故在安装前检查下本机的Java虚拟机环境。用命令查询当前Java版本是否为6以上。
[Command 001]:
java -version
2.通过cd命令进行安装包所在目录,通过ll命令查看spark安装包。
[Command 002]:
cd experiment/file
[Command 003]:
ll
3.将spark安装包spark-2.2.0-bin-hadoop2.7.tgz解压至路径/opt目录下,并查看/opt目录下是否已经成功存在spark解压包。
[Command 004]:
tar xf spark-2.2.0-bin-hadoop2.7.tgz -C /opt
[Command 005]:
ll /opt
4.为了方便维护,将解压后的spark-2.2.0-bin-hadoop2.7文件夹更名为spark。
[Command 006]:
mv /opt/spark-2.2.0-bin-hadoop2.7 /opt/spark
[Command 007]:
ll /opt
5.为了方便运行与维护,通过vi命令打开配置环境变量文件profile。
[Command 008]:
vi /etc/profile
6.为了方便运行与维护,通过vi命令打开配置spark环境变量。从键盘输入i,文件处于可编辑状态(文件底部出现“INSERT”或“插入”字样),输入环境变量的设置。
[Code 001]:
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
7.从键盘按ESC键,使文件profile退出编辑状态,从键盘输入“:wq!”命令保存对profile文件的更改。
[Command 009]:
:wq!
8.使profile文件的更改生效。
[Command 010]:
source /etc/profile
9.查看Spark命令列表,其中pyspark为启动Spark下Python的命令。
[Command 011]:
ll $SPARK_HOME/bin
10.启动Python环境,并通过quit命令退出该环境。
[Command 012]:
$SPARK_HOME/bin/pyspark
[Command 013]:
quit();
11.使用Spark自带的示例程序进行测试。本次使用的测试程序为SparkPi,SparkPi会将计算圆周率并将计算结果打印至控制台。(注意:运算的Pi的结果如图红框所示,可能存在不完全一致的情况,大约值在3.14左右,属于正常现象)。
[Command 014]:
$SPARK_HOME/bin/spark-submit --master local[3] --class org.apache.spark.examples.SparkPi /opt/spark/examples/jars/spark-examples_2.11-2.2.0.jar