hadoop2.4.1集群安装spark1.1.0 [复制链接] desehawk 454 主题 919 帖子 5058 积分 实习版主 积分 5058 收听TA 发消息 电梯直达 楼主 发表于 2014-11-25 12:03:42 | 只看该作者 | 只看大图 about云openstack零基础部署开发入门购买活动 id="cproIframe_u1728839_3" width="120" height="240" src="http://pos.baidu.com/acom?adn=4&at=160&aurl=&cad=1&ccd=24&cec=GBK&cfv=16&ch=0&col=zh-CN&conOP=0&cpa=1&dai=3&dis=0&layout_filter=rank%2Cimage<r=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DlijpsSpM5TfVMy6omIYAg-7oNMt5S1i_H6-3gz2Mdxmf4IpNFrOcV4hs8Z7_nKL-C7ZVGUVQl5kH_ONM0ZoWEK%26wd%3Dspark-1.1.0-bin-hadoop2.4.tgz%2520%25E4%25B8%258B%25E8%25BD%25BD%26issp%3D1%26f%3D8%26ie%3Dutf-8%26tn%3Dbaiduhome_pg%26inputT%3D4058<u=http%3A%2F%2Fwww.aboutyun.com%2Fthread-10277-1-1.html&lunum=6&n=92051019_cpr&pcs=1347x667&pis=10000x10000&ps=609x1132&psr=1366x768&pss=1347x946&qn=131b96f17164da14&rad=&rsi0=120&rsi1=240&rsi5=4&rss0=%23FFFFFF&rss1=%23FFFFFF&rss2=%230000ff&rss3=%23444444&rss4=%23008000&rss5=&rss6=%23e10900&rss7=&scale=&skin=tabcloud_skin_3&stid=5&td_id=1728839&ti=hadoop2.4.1%E9%9B%86%E7%BE%A4%E5%AE%89%E8%A3%85spark1.1.0-Spark-about%E4%BA%91%E5%BC%80%E5%8F%91&tn=text_default_120_240&tpr=1430019724722&ts=1&version=2.0&xuanting=0&dtm=BAIDU_DUP2_SETJSONADSLOT&dc=2&di=u1728839&tt=1430019724807.97.149.149" align="center,center" marginwidth="0" marginheight="0" scrolling="no" frameborder="0" allowtransparency="true" style="word-wrap: break-word;"> 问题导读 1.spark on yarn你认为有什么优势? 2.spark on yarn该如何配置? 3.spark on yarn如何提交job? 本文介绍的是如何将Apache Spark部署到Hadoop 2.4.1上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。 需要注意两点: (1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,资源调度要依托于第三方系统,比如YARN或Mesos等 (2)之所以不采用Mesos而是YARN,是因为YARN拥有强大的社区支持,且逐步已经成为资源管理系统中的标准。 在linux环境下hadoop2.X完全分布式搭建 hadoop2.2完全分布式最新高可靠安装文档 下载spark http://spark.apache.org/ 注意spark版本的问题,pre-built,hadoop-2.4 因为这是搭建在yarn上的。如果搭建在mesos上,需要下载对应的版本。 1. 安装scala tar -xvzf scala-2.10.4.tgz 复制代码 mv scala-2.10.4 scala 复制代码 sudo mv scala /usr/local/ 复制代码 添加环境变量: sudo vi /etc/profile 复制代码 将如下内容添加到文件末尾 #scala export SCALA_HOME=/usr/local/scala export PATH=$SCALA_HOME/bin:$PATH 复制代码 保存并更新/etc/profile: source /etc/profile 复制代码 测试scala是否安装成功: scala -version 复制代码 2. 安装Spark sudo cp spark-1.1.0-bin-hadoop2.4.tgz /usr/local 复制代码 sudo tar -xvzf spark-1.1.0-bin-hadoop2.4.tgz 复制代码 tar -xvzf spark-1.1.0-bin-hadoop2.4.tgz 复制代码 mv spark-1.1.0-bin-hadoop2.4 spark 复制代码 sudo mv spark /usr/local/ 复制代码 在/etc/profile文件的末尾添加环境变量: #spark export SPARK_HOME=/usr/local/spark-1.1.0-bin-hadoop2.4 export PATH=$SPARK_HOME/bin:$PATH 复制代码 保存并更新/etc/profile: source /etc/profile 复制代码 修改conf目录下的spark-env.sh,添加环境变量 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop export SPARK_HOME=/usr/local/spark export SPARK_JAR=/usr/local/spark/lib/spark-assembly-1.1.0-hadoop2.4.0.jar export PATH=$SPARK_HOME/bin:$PATH 复制代码 注: HADOOP_CONF_DIR YARN_CONF_DIR这2个变量任选其一 SPARK_JAR 必须指定。 3.提交job 的命令 ./bin/spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \ lib/spark-examples*.jar \ 1 复制代码