搭建Spark集群环境，编译软件部分的笔记

最新推荐文章于 2020-12-31 11:52:20 发布

siyuetian1943

最新推荐文章于 2020-12-31 11:52:20 发布

阅读量567

点赞数

分类专栏： Spark 文章标签：编译集群

Spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.hadoop模块(版本为2.7)

增加 hadoop 2.7 支持。在 pom.xml 中新建一个 profile 放在 hadoop-2.4 下面，为:

 <profile>
      <id>hadoop-2.7</id>
      <properties>
        <hadoop.version>2.7.0</hadoop.version>
        <protobuf.version>2.5.0</protobuf.version>
        <jets3t.version>0.9.3</jets3t.version>
        <hbase.version>0.98.12.1-hadoop2</hbase.version>
        <commons.math3.version>3.1.1</commons.math3.version>
        <avro.mapred.classifier>hadoop2</avro.mapred.classifier>
        <codehaus.jackson.version>1.9.13</codehaus.jackson.version>
      </properties>
   </profile>

将所有<jline.version>${scala.version}</jline.version> 出现的地方改成 2.10.5, 编译时使用scala-jline的，但是 repl 模块使用的又是 java 的 jline ,要注意.

2.子模块的配置

SQL 模块: sql/catalyst/pom.xml

将 spark-catalyst_2.10 改成 spark-catalyst_2.11
将 quasiquotes_${scala.binary.version} 改成 quasiquotes_2.10
把下一行的 version 改成2.0.1
因为这个库还没有 2.11 版，只有 2.10

MLib 模块：mllib/pom.xml
将 spark-mllib_2.10 改成 spark-mllib_2.11

Assembly模块：assembly/pom.xml

将spark-hive-thriftserver_${scala.binary.version}改成spark-hive-thriftserver_2.10。版本为 1.3.1

在 pom.xml 中将 scala-2.11 中的 jline 替换成和 2.10 一样的 jline 库

    <jline.version>2.10.5</jline.version>
             <jline.groupid>org.scala-lang</jline.groupid>

Repl模块： repl/pom.xml
将原本的 jline 依赖改成，下面的形式

      <dependency>
          <groupId>jline</groupId>
          <artifactId>jline</artifactId>
          <version>2.12.1</version>
        </dependency>

扩展模块：
(kafka暂时还没有scala 2.11的版本，所以需要去除)：

3. 执行 build
# build/mvn -Pyarn -Phadoop-2.7 -Phive-0.13.1 -Pscala-2.11 -Phive-thriftserver -DskipTests -pl ‘!external/kafka,!external/kafka-assembly’ clean package > ~/build.log 2>&1 &
# tail -f ~/build.log