Spark是一个分布式计算框架,将其和hadoop的yarn结合可以很好的将其和hadoop结合 起来来代替MapReduce来做分布式计算
基于上一节单机hadoop的搭建继续按照Spark
export SCALA_HOME=/liu/scala/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
-
Spark是基于Scala开发的首先下载Scala并且配置环境变量,这边下载的是2.10.4 ,下载完成后太在/etc/profile中添加SCALA_HOME和PATH
-
查看Spark /conf目录下的slaves目录,这文件记录着所有集群的hostname,由于是单机模式,填入本机hostname即可
-
启动spark sbin目录下start-all.sh开启spark服务
-
访问spark页面 http://IP:8080/ 执行Spark自带demo测试是否成功
Spark全路径/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --driver-memory 1G --executor-memory 1G --executor-cores 1 /Spark路径/examples/jars/spark-examples_2.11-2.4.0.jar 40
访问yarn地址查看是否有spark任务被添加
查看jps
发现spark的Master服务和Worker服务已经开启