hadoop2.5环境下编译spark并部署

最新推荐文章于 2021-12-05 15:47:48 发布

正在加载丶

最新推荐文章于 2021-12-05 15:47:48 发布

阅读量1k

点赞数 2

分类专栏： spark

本文链接：https://blog.csdn.net/qi49125/article/details/79895657

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、环境介绍

    操作系统：linux
    jdk：1.7.0_67
    spark版本：1.6.0
    hadoop版本：2.5.0或者cdh2.5.0
    maven版本：3.5.4
    scala版本：2.11.1

2、编译准备

1)由于编译apache的spark，首先在maven的setting文件中增加阿里的源，
<mirror>
    <id>aliyun</id>
    <mirrorOf>central</mirrorOf>
    <name>aliyun repository</name>
    <url>
        http://maven.aliyun.com/nexus/content/groups/public/
    </url>
</mirror>

2)解压下载好的源码，并进行配置，
tar -zxvf spark.1.6.0.tgz -C /opt/tools/workspace/
编辑目录中的make-distribution.sh,在130行左右进行修改，修改信息如下：
    VERSION=1.6.0
    SCALA_VERSION=2.11.0
    SPARK_HADOOP_VERSION=2.5.0
    SPARK_HIVE=1
同时，修改spark里面的pom文件，把scala版本修改成2.11.0

3、开始编译

编译命令：
    ./make-distribution.sh --tgz \
    -Phadoop-2.4 \
    -Dhadoop.version=2.5.0 \
    -Pyarn \
    -Phive -Phive-thriftserver

注：编译过程比较久，可以提前准备好依赖的scala和zinc。

编译完成后，到spark-core的目录下查看一下

4、CDH版本的编译

4.1首先下载源码

从apache-spark的网站下载源码： 
    http://archive.cloudera.com/cdh5/cdh/5/
    各种配置步骤和apache的版本都一致

4.2编译准备

1)由于编译apache的spark，首先在maven的setting文件中增加cloudera的源，
<mirror>
    <id>cloudera</id>
    <mirrorOf>central</mirrorOf>
    <name>clouderarepository</name>
    <url>
        https://repository.cloudera.com/artifactory/cloudera-repos/
    </url>
</mirror>

2)解压下载好的源码，并进行配置，
tar -zxvf spark.1.6.0.tgz -C /opt/tools/workspace/
编辑目录中的make-distribution.sh,在130行左右进行修改，修改信息如下：
    VERSION=1.6.0
    SCALA_VERSION=2.11.0
    SPARK_HADOOP_VERSION=cdh-2.5.0
    SPARK_HIVE=1
同时，修改spark里面的pom文件，把scala版本修改成2.11.0

4.3开始编译

编译命令：
    ./make-distribution.sh --tgz \
    -Phadoop-2.4 \
    -Dhadoop.version=2.5.0-cdh5.3.6 \
    -Pyarn \
    -Phive -Phive-thriftserver

5、spark部署

spark和hadoop有点像，但是又不完全像。除了需要安装hadoop和scala外，还需要把环境变量设置好，这种操作在这里就不展示了。部署spark，需要修改一些配置文件。

`spark-env.sh`

export JAVA_HOME=Java安装目录 

export SCALA_HOME=Scala安装目录 

export HADOOP_HOME=hadoop安装目录 

export HADOOP_CONF_DIR=hadoop集群的配置文件的目录 

export SPARK_MASTER_IP=spark集群的Master节点的ip地址 

export SPARK_WORKER_MEMORY=每个worker节点能够最大分配给exectors的内存大小 

export SPARK_WORKER_CORES=每个worker节点所占有的CPU核数目

export SPARK_WORKER_INSTANCES=每台机器上开启的worker节点的数目

修改`slaves`文件

slave1
slave2

然后将配置好的复制到其他节点机器上。

最后，启动spark-shell测试运行一下，我是直接运行自己写的wordcount，简化代码如下：

sc.textFile("hdfs://master:9000/test/upload.csv").flatMap(_.split(" ")).map(_,1).reduceByKey(_ + _).collect