一、安装前提
以下安装都可以参照以前的环境搭建博客:
Java8
zookeeper
hadoop2.6.0
Scala(不安装进程也可以启动)
下载地址:https://archive.apache.org/dist/spark/spark-2.3.4/
二、Spark安装
1.解压、重命名并移动到指定目录
tar -zxvf spark-2.3.4-bin-hadoop2.6.tgz
mv spark-2.3.4-bin-hadoop2.6 /opt/soft/spark234
2.修改配置文件
2.1 配置conf目录下的spark-env.sh
cd /opt/soft/spark234/conf
vi spark-env.sh
export SPARK_MASTER_HOST=192.168.56.171 #主节点IP
export SPARK_MASTER_PORT=7070 #任务提交端口
export SPARK_WORKER_CORES=2 #每个worker使用的核数
export SPARK_WORKER_MEMORY=3g #每个worker使用的内存数
export SPARK_MASTER_WEBUI_PORT=9999 #web展示端口号
2.2 配置slaves
cp slaves.template slaves
vi slaves
学习搭建伪分布式即可,不需要配置保持localhost
分布式加入worker的节点,例如:
sp1
sp2
2.3 配置sbin目录下的spark-config.sh
vi ../sbin/spark-config.sh
添加jdk的安装路径
export JAVA_HOME=/opt/soft/jdk18011
启动spark
到主节点spark的sbin下运行 ./start-all.sh
三、验证
浏览器输入地址192.168.56.171:9999
在虚拟机里面使用spark
进入bin目录
./spark-shell
spark实现World Count
//读取本地文件
val rdd = sc.textFile("file:///opt/soft/data/e.txt")
//读hdfs上文件
val rdd = sc.textFile("hdfs://192.168.56.171:9000/wc/e.txt")
rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
count结果: