spark1.0.2分布式集群安装

环境配置:

安装路径/usr/local/

已经搭建好hadoop集群,也可以不用搭建HADOOP集群,搭建HADOOP集群是为了利用HDFS

系统版本:ubuntu14.04

jdk版本:1.8

scala版本:2.11.4

hadoop版本:2.2.0

附:scala2.11.4的安装方法

1.到官网下载scala2.11.4的安装包

2.解压安装包到目录/usr/local/scala

3.配置环境变量:sudo gedit /etc/profile

export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH

4.使环境变量立即生效source /etc/profile

5.判断是否安装成功:scala -version

6.安装scala到集群的每台集群上

一.开始安装spark集群

1.到官网下载spark1.0.2安装包

2.解压spark安装包到/usr/local/spark

3.修改配置文件/usr/local/spark/conf/slaves,添加以下内容,为节点名称

master

node1

node2

4.复制/usr/local/spark/conf/spark-env.sh.template到/usr/local/spark/conf

把复制的文件名改为spark-env.sh并且添加以下内容

export JAVA_HOME=/usr/local/jdk1.8.0_11
export SCALA_HOME=/usr/local/scala-2.11.4
export HADOOP_HOME=/usr/local/hadoop-2.2.0
export HADOOP_CONF_DIR=/usr/local/hadoop-2.2.0/etc/hadoop  #hadoop的配置文件路径
export SPARK_MASTER_IP=master     
export SPARK_WORKER_MEMORY=1g

5.把配置好的安装目录拷贝到每个节点

scp -r /usr/local/spark ip@name:/usr/local/spark

至此,安装完成

二.启动spark集群

1.启动hadoop

2.启动spark

cd /usr/local/spark

sbin/start-all.sh

3.检查是否启动成功

jps

出现worker进程说明启动成功

4.启动单机shell控制台

/usr/local/spark/bin/spark-shell

5.启动集群shell控制台

cd /usr/local/spark/bin
MASTER=spark://master:7077 ./spark-shell

控制台状态查看UI:http://master:4040

三.spark集群测试

1.上传文本文件test.txt到hdfs上/data/test.txt

2.启动shell连接到集群

cd /usr/local/spark/bin
MASTER=spark://master:7077 ./spark-shell

3.读取文件

val file=sc.textFile("hdfs://master:9000/data/test.txt")

4.统计任务

val count=file.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_+_)

5.提交任务

count.collect

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值