Spark1.0.0 分布式环境搭建


 

软件版本如下:

Hostname

IP

Hadoop版本

Hadoop

功能

系统

master

192.168.119.128

1.1.2

namenode

jdk1.6+hadoop+scala2.9.3+spark1.0.0

centos5.9

 

 

 

 

 

 

slave1

192.168.119.129

1.1.2

datanode

jdk1.6+hadoop+scala2.9.3+spark1.0.0

centos5.9

 

 

 

 

 

 

slave2

192.168.119.130

1.1.2

datanode

jdk1.6+hadoop+scala2.9.3+spark1.0.0

centos5.9

 

 

首先搭建hadoop环境,这里不详细说,网上很多。

然后安装scala环境,很简单和配置jdk类似

  2.1  下载scala 安装包 2.9.3

  http://www.scala-lang.org/download/2.9.3.html#Software_Requirements

  2.2 下载的 scala-2.9.3.tgz ftp master

目录为  /home/bigdata/

  2.3  进入目录  /home/bigdata/

      tar -zxf scala-2.9.3.tgz

      mv  scala-2.9.3  scala 

    /home/bigdata/scala   (配置目录)

  2.4 配置环境变量(分别到3台机器配置)  

    vi  /etc/profile

   export SCALA_HOME=/home/bigdata/scala

   export PATH=$PATH:$SCALA_HOME/bin

   source /etc/profile

  2.5 检测是否配置成功

  scala -version

  Scala code runner version 2.9.3 -- Copyright 2002-2011, LAMP/EPFL

    表示安装成功

  2.6  远程复制到其它机:(结构目录和master一致)

   scp -r  /home/bigdata/scala  root@192.168.119.129:/home/bigdata/

   scp -r  /home/bigdata/scala  root@192.168.119.130:/home/bigdata/

配置spark

 

  3. 1 下载spark 1.0.0   http://spark.apache.org/downloads.html

  3.2  复制包到 spark-1.0.0-bin-hadoop1.tgz 

      目录为:/home/bigdata/

  3.3  进入目录 /home/bigdata/

     tar -zxf spark-1.0.0-bin-hadoop1.tgz

     mv  spark-1.0.0-bin-hadoop1  spark-hadoop1

     得到  /home/bigdata/spark-hadoop1 (配置路径)

     

   

  3.4   配置用户环境变量 (分别配置3台机器)

   vi  ~/.bash_profile

   export SPARK_HOME=/home/bigdata/spark-hadoop1

   export PATH=$PATH:$SPARK_HOME/bin

   source ~/.bash_profile

   3.5 conf 中设置scala 

   cd  /home/bigdata/spark-hadoop1/conf

   cp spark-env.sh.template spark-env.sh

   vi  spark-env.sh

   添加 

   export JAVA_HOME=/home/bigdata/jdkJdk安装路径)

   export SCALA_HOME=/home/bigdata/scala(scala 安装路径)

  修改该目录的slaves
  增加
    192.168.119.129 
    192.168.119.130


   3.6 复制到其它机器

  scp -r /home/bigdata/spark-hadoop1 root@slave1:/home/bigdata/

  scp -r /home/bigdata/spark-hadoop1 root@slave2:/home/bigdata/

启动hadoop集群 

启动spark 集群

  在master 机进入目录 /home/bigdata/spark-hadoop1/sbin

   sh start-all.sh  

 jps

5704 DataNode

6021 TaskTracker

5587 NameNode

5898 JobTracker

5810 SecondaryNameNode

6374 Worker

6457 Jps

6239 Master

启动web访问页面  http://master:8080/


 进入 /home/bigdatat//spark-hadoop1/bin/     spark-shell




测试实例:

scala>  val file = sc.textFile("hdfs://master:9000/home/bigdata/grade.txt")  
scala> val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)
scala> count.collect()

Spark的bin子目录中的spark-submit脚本是用于提交程序到集群中运行的工具,我们使用此工具做一个关于pi的计算。

 进入目录  cd  /home/bigdata/spark-hadoop1/

./bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi --executor-memory 400M --driver-memory 512M  /home/bigdata/spark-hadoop1/lib/spark-examples-1.0.0-hadoop1.0.4.jar






 参考:点击打开链接

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值