hadoop集群上面安装 spark 1.1.0

hadoop2.4.1集群安装spark1.1.0 

[复制链接]
   

454

主题

919

帖子

5058

积分

实习版主

Rank: 7Rank: 7Rank: 7

积分
5058

活跃会员热心会员优秀版主

跳转到指定楼层
楼主
  发表于 2014-11-25 12:03:42  |  只看该作者  | 只看大图  回帖奖励
id="cproIframe_u1728839_3" width="120" height="240" src="http://pos.baidu.com/acom?adn=4&at=160&aurl=&cad=1&ccd=24&cec=GBK&cfv=16&ch=0&col=zh-CN&conOP=0&cpa=1&dai=3&dis=0&layout_filter=rank%2Cimage&ltr=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DlijpsSpM5TfVMy6omIYAg-7oNMt5S1i_H6-3gz2Mdxmf4IpNFrOcV4hs8Z7_nKL-C7ZVGUVQl5kH_ONM0ZoWEK%26wd%3Dspark-1.1.0-bin-hadoop2.4.tgz%2520%25E4%25B8%258B%25E8%25BD%25BD%26issp%3D1%26f%3D8%26ie%3Dutf-8%26tn%3Dbaiduhome_pg%26inputT%3D4058&ltu=http%3A%2F%2Fwww.aboutyun.com%2Fthread-10277-1-1.html&lunum=6&n=92051019_cpr&pcs=1347x667&pis=10000x10000&ps=609x1132&psr=1366x768&pss=1347x946&qn=131b96f17164da14&rad=&rsi0=120&rsi1=240&rsi5=4&rss0=%23FFFFFF&rss1=%23FFFFFF&rss2=%230000ff&rss3=%23444444&rss4=%23008000&rss5=&rss6=%23e10900&rss7=&scale=&skin=tabcloud_skin_3&stid=5&td_id=1728839&ti=hadoop2.4.1%E9%9B%86%E7%BE%A4%E5%AE%89%E8%A3%85spark1.1.0-Spark-about%E4%BA%91%E5%BC%80%E5%8F%91&tn=text_default_120_240&tpr=1430019724722&ts=1&version=2.0&xuanting=0&dtm=BAIDU_DUP2_SETJSONADSLOT&dc=2&di=u1728839&tt=1430019724807.97.149.149" align="center,center" marginwidth="0" marginheight="0" scrolling="no" frameborder="0" allowtransparency="true" style="word-wrap: break-word;">

问题导读

1.spark on yarn你认为有什么优势?
2.spark on yarn该如何配置?
3.spark on yarn如何提交job?










本文介绍的是如何将Apache Spark部署到Hadoop 2.4.1上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。

需要注意两点:

(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,资源调度要依托于第三方系统,比如YARN或Mesos等 

(2)之所以不采用Mesos而是YARN,是因为YARN拥有强大的社区支持,且逐步已经成为资源管理系统中的标准。

在linux环境下hadoop2.X完全分布式搭建

hadoop2.2完全分布式最新高可靠安装文档
下载spark
http://spark.apache.org/
注意spark版本的问题,pre-built,hadoop-2.4
因为这是搭建在yarn上的。如果搭建在mesos上,需要下载对应的版本。


1. 安装scala

  1. tar -xvzf scala-2.10.4.tgz
复制代码
  1. mv scala-2.10.4 scala
复制代码
  1. sudo mv scala /usr/local/
复制代码


添加环境变量:
  1. sudo vi /etc/profile
复制代码


将如下内容添加到文件末尾
  1. #scala
  2. export SCALA_HOME=/usr/local/scala
  3. export PATH=$SCALA_HOME/bin:$PATH
复制代码



保存并更新/etc/profile:
  1. source /etc/profile
复制代码



测试scala是否安装成功:
  1. scala -version
复制代码



 


2. 安装Spark

  1. sudo cp spark-1.1.0-bin-hadoop2.4.tgz /usr/local
复制代码
  1. sudo tar -xvzf spark-1.1.0-bin-hadoop2.4.tgz
复制代码
  1. tar -xvzf spark-1.1.0-bin-hadoop2.4.tgz
复制代码
  1. mv spark-1.1.0-bin-hadoop2.4 spark
复制代码
  1. sudo mv spark /usr/local/
复制代码



在/etc/profile文件的末尾添加环境变量:

  1. #spark
  2. export SPARK_HOME=/usr/local/spark-1.1.0-bin-hadoop2.4
  3. export PATH=$SPARK_HOME/bin:$PATH
复制代码



保存并更新/etc/profile:

  1. source /etc/profile
复制代码




修改conf目录下的spark-env.sh,添加环境变量

  1. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  2. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

  3. export SPARK_HOME=/usr/local/spark
  4. export SPARK_JAR=/usr/local/spark/lib/spark-assembly-1.1.0-hadoop2.4.0.jar
  5. export PATH=$SPARK_HOME/bin:$PATH
复制代码



注:
HADOOP_CONF_DIR YARN_CONF_DIR这2个变量任选其一 
SPARK_JAR 必须指定。 


3.提交job 的命令 

  1. ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
  2. --master yarn-cluster \
  3. --num-executors 1 \
  4. --driver-memory 1g \
  5. --executor-memory 1g \
  6. --executor-cores 1 \
  7. lib/spark-examples*.jar \
  8. 1
复制代码


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值