Spark1.0.0 分布式环境搭建

最新推荐文章于 2024-03-07 15:10:11 发布

li72li72

最新推荐文章于 2024-03-07 15:10:11 发布

阅读量3.8k

点赞数 2

分类专栏：学习笔记 hadoop

本文链接：https://blog.csdn.net/lili72/article/details/33307885

版权

学习笔记同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

hadoop

21 篇文章 0 订阅

订阅专栏

软件版本如下：

Hostname	IP	Hadoop版本	Hadoop	功能	系统
master	192.168.119.128	1.1.2	namenode	jdk1.6+hadoop+scala2.9.3+spark1.0.0	centos5.9

slave1	192.168.119.129	1.1.2	datanode	jdk1.6+hadoop+scala2.9.3+spark1.0.0	centos5.9

slave2	192.168.119.130	1.1.2	datanode	jdk1.6+hadoop+scala2.9.3+spark1.0.0	centos5.9

1 首先搭建hadoop环境，这里不详细说，网上很多。

2 然后安装scala环境，很简单和配置jdk类似

2.1 下载scala 安装包 2.9.3

http://www.scala-lang.org/download/2.9.3.html#Software_Requirements

2.2 下载的 scala-2.9.3.tgz ftp 到master机

目录为 /home/bigdata/

2.3 进入目录 /home/bigdata/

tar -zxf scala-2.9.3.tgz

mv scala-2.9.3 scala

/home/bigdata/scala (配置目录)

2.4 配置环境变量（分别到3台机器配置）

vi /etc/profile

export SCALA_HOME=/home/bigdata/scala

export PATH=$PATH:$SCALA_HOME/bin

source /etc/profile

2.5 检测是否配置成功

scala -version

表示安装成功

2.6 远程复制到其它机：（结构目录和master一致）

scp -r /home/bigdata/scala root@192.168.119.129:/home/bigdata/

scp -r /home/bigdata/scala root@192.168.119.130:/home/bigdata/

3 配置spark

3. 1 下载spark 1.0.0 http://spark.apache.org/downloads.html

3.2 复制包到 spark-1.0.0-bin-hadoop1.tgz 中

目录为：/home/bigdata/

3.3 进入目录 /home/bigdata/

tar -zxf spark-1.0.0-bin-hadoop1.tgz

mv spark-1.0.0-bin-hadoop1 spark-hadoop1

得到 /home/bigdata/spark-hadoop1 (配置路径)

3.4 配置用户环境变量（分别配置3台机器）

vi ~/.bash_profile

export SPARK_HOME=/home/bigdata/spark-hadoop1

export PATH=$PATH:$SPARK_HOME/bin

source ~/.bash_profile

3.5 在conf 中设置scala

cd /home/bigdata/spark-hadoop1/conf

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

添加

export JAVA_HOME=/home/bigdata/jdk（Jdk安装路径）

export SCALA_HOME=/home/bigdata/scala(scala 安装路径)

修改该目录的slaves
增加
192.168.119.129
192.168.119.130

3.6 复制到其它机器

scp -r /home/bigdata/spark-hadoop1 root@slave1:/home/bigdata/

scp -r /home/bigdata/spark-hadoop1 root@slave2:/home/bigdata/

4 启动hadoop集群

5 启动spark 集群

在master 机进入目录 /home/bigdata/spark-hadoop1/sbin

sh start-all.sh

jps

5704 DataNode

6021 TaskTracker

5587 NameNode

5898 JobTracker

5810 SecondaryNameNode

6374 Worker

6457 Jps

6239 Master

6 启动web访问页面 http://master:8080/

进入 /home/bigdatat//spark-hadoop1/bin/ spark-shell

测试实例：

scala> val file = sc.textFile("hdfs://master:9000/home/bigdata/grade.txt")
scala> val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)
scala> count.collect()

Spark的bin子目录中的spark-submit脚本是用于提交程序到集群中运行的工具，我们使用此工具做一个关于pi的计算。

进入目录 cd /home/bigdata/spark-hadoop1/

./bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi --executor-memory 400M --driver-memory 512M /home/bigdata/spark-hadoop1/lib/spark-examples-1.0.0-hadoop1.0.4.jar