ubuntu下hadoop build流程及常见问题

最新推荐文章于 2021-10-27 15:46:20 发布

icyfox_bupt

最新推荐文章于 2021-10-27 15:46:20 发布

阅读量331

点赞数

分类专栏：编程思考文章标签： hadoop linux 大数据 ubuntu hdfs

本文链接：https://blog.csdn.net/icyfox_bupt/article/details/90042162

版权

编程思考专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文详述了在Ubuntu系统下编译Hadoop的步骤，包括获取代码、安装依赖（如ProtocolBuffer 2.5.0）、切换Maven源等，并强调了遇到的常见问题与解决方法，以帮助读者顺利进行Hadoop自定义代码的编译工作。

摘要由CSDN通过智能技术生成

想要学习hadoop，自定义hadoop代码并运行，build是绕不开的一步。
但这个操作实在是太复杂，以至于不容易完成。本文聊一下我在build中遇到的坑。
本文内容基于 ubuntu 16.04 JDK8

获取代码

hadoop项目代码从https://github.com/apache/hadoop获取。如果你的项目对hadoop版本有要求，clone下来后checkout到相应的分支或者tag即可。

git clone https://github.com/apache/hadoop.git
git checkout release-2.7.1

安装依赖

阅读编译说明

由于hadoop编译实在是太复杂，官方甚至有一个编译说明。
打开项目根目录的BUILDING.txt，注意以下内容：

Installing required packages for clean install of Ubuntu 14.04 LTS Desktop:

* Oracle JDK 1.7 (preferred) （作者注：Ubuntu原生java或者JDK8都可以成功编译，这一段可以忽略）
  $ sudo apt-get purge openjdk*
  $ sudo apt-get install software-properties-common
  $ sudo add-apt-repository ppa:webupd8team/java
  $ sudo apt-get update
  $ sudo apt-get install oracle-java7-installer
* Maven
  $ sudo apt-get -y install maven
* Native libraries
  $ sudo apt-get -y install build-essential autoconf automake libtool cmake zlib1g-dev pkg-config libssl-dev
* ProtocolBuffer 2.5.0 (required) （作者注：必须是2.5.0，但是下面的命令现在会自动下载2.6.1，所以不要用下面的命令）
  $ sudo apt-get -y install libprotobuf-dev protobuf-compiler

说明中对于所需依赖分为4个方面：

JDK 1.7：根据实践1.8也可以用，如果你已经安装了JDK此处可以忽略
Maven：没有安装的话，执行命令
Native libraries：一般都需要安装，执行命令
ProtocolBuffer 2.5.0：编译成功的必备。但是下方命令会下载2.6.1，不要执行。

手动安装ProtocolBuffer 2.5.0

接上文，安装好其它依赖后，需要手动安装ProtocolBuffer 2.5.0。首先运行

protoc --version

确认本地是否已有ProtocolBuffer，及版本是否为2.5.0。如果安装了其它版本，需要卸载：

sudo apt-get -y remove libprotobuf-dev protobuf-compiler

执行以下命令手动安装：(自行确认是否需要sudo)

cd /usr/local/src/
wget https://github.com/google/protobuf/releases/download/v2.5.0/protobuf-2.5.0.tar.gz
tar xvf protobuf-2.5.0.tar.gz
cd protobuf-2.5.0
./autogen.sh
./configure --prefix=/usr
make
make install
protoc --version

切换Maven源

hadoop编译过程中需要从Maven中下载大量依赖，如果你是国内环境，切换到阿里云的源会10倍地提高编译速度。
apt安装的Maven，打开/etc/maven/settings.xml。手动安装的Maven，打开maven目录下的conf/settings.xml。
在<mirros>中添加：

<mirror>
	<id>nexus-aliyun</id>
	<mirrorOf>*</mirrorOf>
	<name>Nexus aliyun</name>
	<url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>

注意<mirrorOf>中是*才可以替换所有源，笔者最开始为central，导致很多包无法下载。

在<profiles>中添加：

<repository>
    <id>nexus-aliyun</id>
    <name>Nexus aliyun</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public</url>
</repository>

最终settings.xml应该为：(忽略注释和无关代码块)

<?xml version="1.0" encoding="UTF-8"?>
<settings xmlns="http://maven.apache.org/SETTINGS/1.0.0"
          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
          xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings-1.0.0.xsd">
  <mirrors>
	<mirror>
		<id>nexus-aliyun</id>
		<mirrorOf>*</mirrorOf>
		<name>Nexus aliyun</name>
		<url>http://maven.aliyun.com/nexus/content/groups/public</url>
	</mirror>
  </mirrors>
  <profiles>
        <repository>
            <id>nexus-aliyun</id>
            <name>Nexus aliyun</name>
            <url>http://maven.aliyun.com/nexus/content/groups/public</url>
        </repository>
  </profiles>
</settings>

编译

切换到项目根目录，运行：

mvn package -Pdist -DskipTests -Dtar

如果上面命令成功，可以运行更多的编译内容：

mvn package -Pdist,native,docs -DskipTests -Dtar

一般来说第一个命令就够用了，很多hadoop工具只需要java代码

以上就是我在ubuntu 16.04上编译成功hadoop的经验，成功编译hadoop对于调试集群，测试新功能都有帮助。

icyfox_bupt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ubuntu下hadoop build流程及常见问题

想要学习hadoop，自定义hadoop代码并运行，build是绕不开的一步。但这个操作实在是太复杂，以至于不容易完成。本文聊一下我在build中遇到的坑。本文内容基于 ubuntu 16.04 JDK8获取代码hadoop项目代码从https://github.com/apache/hadoop获取。如果你的项目对hadoop版本有要求，clone下来后checkout到相应的分支或者...
复制链接

扫一扫

专栏目录