环境配置:
安装路径/usr/local/
已经搭建好hadoop集群,也可以不用搭建HADOOP集群,搭建HADOOP集群是为了利用HDFS
系统版本:ubuntu14.04
jdk版本:1.8
scala版本:2.11.4
hadoop版本:2.2.0
附:scala2.11.4的安装方法
1.到官网下载scala2.11.4的安装包
2.解压安装包到目录/usr/local/scala
3.配置环境变量:sudo gedit /etc/profile
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH
4.使环境变量立即生效source /etc/profile
5.判断是否安装成功:scala -version
6.安装scala到集群的每台集群上
一.开始安装spark集群
1.到官网下载spark1.0.2安装包
2.解压spark安装包到/usr/local/spark
3.修改配置文件/usr/local/spark/conf/slaves,添加以下内容,为节点名称
master
node1
node2
4.复制/usr/local/spark/conf/spark-env.sh.template到/usr/local/spark/conf
把复制的文件名改为spark-env.sh并且添加以下内容
export JAVA_HOME=/usr/local/jdk1.8.0_11
export SCALA_HOME=/usr/local/scala-2.11.4
export HADOOP_HOME=/usr/local/hadoop-2.2.0
export HADOOP_CONF_DIR=/usr/local/hadoop-2.2.0/etc/hadoop #hadoop的配置文件路径
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=1g
5.把配置好的安装目录拷贝到每个节点
scp -r /usr/local/spark ip@name:/usr/local/spark
至此,安装完成
二.启动spark集群
1.启动hadoop
2.启动spark
cd /usr/local/spark
sbin/start-all.sh
3.检查是否启动成功
jps
出现worker进程说明启动成功
4.启动单机shell控制台
/usr/local/spark/bin/spark-shell
5.启动集群shell控制台
cd /usr/local/spark/bin
MASTER=spark://master:7077 ./spark-shell
控制台状态查看UI:http://master:4040
三.spark集群测试
1.上传文本文件test.txt到hdfs上/data/test.txt
2.启动shell连接到集群
cd /usr/local/spark/bin
MASTER=spark://master:7077 ./spark-shell
3.读取文件
val file=sc.textFile("hdfs://master:9000/data/test.txt")
4.统计任务
val count=file.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_+_)
5.提交任务
count.collect