将Hadoop 2.6.0源码导入到Eclipse

我的环境:

Windows 7 64bit
NTFS格式文件系统
Administrator用户
Eclipse(Luna Service Release 2 (4.4.2))
JDK 1.7(Oracle官网下载)最好不要用1.8,因为导入源码后还想编译的话会出现问题。
hadoop-src-2.6.0.tar.gz(在官网下载的源码:http://www.apache.org/dyn/closer.cgi/hadoop/common/)



1. 安装Apache Maven。

  • 一般是直接到官网下载最新的binaries;
  • 解压到你所希望的目录,比如C:\Program Files\Apache Software Foundation\
  • 将命令所在路径加入到PATH环境变量中。解压后得到一个目录,我下载的是3.3.1版,得到的目录是apache-maven-3.3.1;maven的可执行命令mvn的目录是C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\bin,需要确保这个路径加入到PATH环境变量中。
  • 验证安装。安装好后,打开一个cmd窗口,执行mvn -version,会输出一些信息(在磁盘根目录下执行这个命令可能会输出java.exe的用法信息,出现这个现象的原因是,mvn命令中启动java.exe时传递的一个参数是路径但最后一个字符不能是"\",而根目录通过%CD%变量给出的字符串的最后一个字符恰恰是"\",所以会出现问题。换到一个非磁盘根目录下执行命令,会正常显示,一般包括Maven的版本和HOME路径,Java的版本和HOME路径,默认Locale,OS的信息。不能正常显示也不会影响后面的过程,只要表明能够找到mvn命令即可)。
  • 设置MAVEN_OPTS。能够为了避免编译时java虚拟机的内存不够,需要设置一个环境变量MAVEN_OPTS,值为-Xms256m -Xmx512m。如果在windows的命令提示符下,使用set MAVEN_OPTS=-Xms256m -Xmx512m(注意没有引号)。


2. (想用官方源的可以跳过这步)可以修改maven的源配置,可以修改成国内的源,下载速度可能快些。请参考http://www.cnblogs.com/errorx/p/3779578.html这篇博文。对于我的maven安装来讲,是要修改C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\conf\目录下的settings.xml文件。


3. 下载protocol buffers的编译器程序,即protoc.exe,放到通过PATH环境变量可以找到的目录(或者将protoc.exe所在目录加入到PATH环境变量中)。这个protocol buffers是google的项目,但相关源码和下载已经转到github.com上了,方便了下载。请下载2.5.0版本的二进制程序。https://github.com/google/protobuf/releases。如果下载有困难可以从下面链接下载:http://vdisk.weibo.com/s/BICjq6gk87iUM(windows的二进制程序),http://vdisk.weibo.com/s/BICjq6gk87iV5(源码,linux下编译)。安装完毕后执行protoc --version检查一下。


4. 解压源码某个目录下面(最好直接放在根目录下)。


5. 进入源码根目录下的hadoop-maven-plugins目录,执行 mvn install。注意执行mvn命令的过程中,可能下载很多maven所需文件,而且因为网速问题,可以经常出错。这时的解决办法是不断重新执行相关mvn命令(包括下面那个步骤也是如此),直到不是因为下载东西导致出错(此时才需要真正查看错误信息)。成功后会显示BUILD SUCCESS。


6. 进入hadoop-maven-plugins目录的上层目录(即源代码根目录),执行

mvn eclipse:eclipse -DskipTests
成功后会显示BUILD SUCCESS。


7. 打开Eclipse,最后专门建一个workspace(即建一个专门目录),执行菜单命令:File->Import,弹出对话框后,在General下面选择Existing Projects into Workspace,然后定位到源代码根目录,点击“Finish”按钮导入。导入后会有一些错误,主要是三个:

 

序号DescriptionResourcePathLocationType
(1)AvroRecord cannot be resolved to a typeTestAvroSerialization.java/hadoop-common/src/test/java/org/apache/hadoop/io/serializer/avroline 32Java Problem
(2)EchoRequestProto cannot be resolvedRPCCallBenchmark.java/hadoop-common/src/test/java/org/apache/hadoop/ipcline 397Java Problem
(3)Project 'hadoop-streaming' is missing required source folder: '<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf'hadoop-streaming Build pathBuild Path Problem

解决第一个错误:

  • 需要下载avro-tools-x.x.x.jar文件,可以下载当前最新的,地址http://mirrors.hust.edu.cn/apache/avro/avro-1.7.7/java/avro-tools-1.7.7.jar(华中科技大学的镜像)。版本更新之后地址可能变化,可以到avro.apache.org上面找最新地址或者最新版本。
  • 进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\avro”执行命令,java -jar <所在目录>\avro-tools-1.7.7.jar compile schema avroRecord.avsc ..\java 。其中avsc文件是avro的模式文件,上面命令是要通过模式文件生成相应的.java文件。
  • 右键单击eclipse中的hadoop-common项目,然后refresh。【如果refresh不成功,直接refresh出错源码文件所在的包】

解决第二个错误,也是要生成一些.java文件:

  • 进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\proto”,执行protoc --java_out=..\java *.proto 命令(protoc就是在上面第三步下载的protoc程序)。
  • 右键单击eclipse中的hadoop-common,然后refresh。【如果refresh不成功,直接refresh出错源码文件所在的包】

解决第三个错误:

  • 在eclipse中,右键单击hadoop-streaming项目,选择“Properties”,左侧栏选择Java Build Path,然后右边选择Source标签页,注意出错的那个路径(先不要删除)。
  • 点击“Link Source按钮”,选择被链接的目录为“<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf”,链接名可以使用显示的(也可以随便取);
  • inclusion patterns中添加capacity-scheduler.xml,exclusion patters中添加**/*.java,这个信息与出错的那项一样;完毕后将出错的项删除。刷新hadoop-streaming项目。

     【补充:好像直接将出错的Source标签页中的项删去,也可以】


至此可以成功导入Hadoop 2.6.0 的源代码到eclipse中,结果如下图所示:


附:

发现一个不常见的问题。一份hadoop-2.6.0的源码经过上面过程导入到eclipse后(在windows上),然后再把这份源码上传到Linux服务器(RHEL 64bit)进行编译,结果出现编译通不过的情况,而使用一份未经此处理的代码,编译是可以顺利通过的。也许顺序到颠倒过来才好——先在Linux上编译,然后在下载到windows环境下导入eclipse。或者干脆直接同步具体的源代码文件,而不管什么eclipse的工程文件。

换了JDK版本之后,可能需要重新走一下这个流程。


上面过程对于hadoop-2.7.0的源码也适用。

  • 7
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
sqoop-1.4.7.bin__hadoop-2.6.0源码包是Apache Sqoop开源项目的一个版本,用于实现Hadoop和关系型数据库之间的数据传输。 Sqoop是一个用于将Hadoop生态系统中的数据与传统关系型数据库之间进行导入和导出的工具。它可以处理大规模的数据传输,帮助用户在Hadoop和关系型数据库之间建立数据桥梁。通过Sqoop,用户可以将数据从MySQL、Oracle、PostgreSQL等数据库中导入Hadoop中进行分析和处理,也可以将结果从Hadoop导出到关系型数据库中进行后续处理。 该源码包中包含了Sqoop 1.4.7版本的二进制文件以及支持Hadoop 2.6.0的相关依赖文件。源码包可以用于构建和部署Sqoop应用程序,也可以用于进行二次开发和定制。 Sqoop-1.4.7版本在此源码包中提供了对Hadoop 2.6.0的支持,并且修复了一些之前版本中存在的问题和bug,提高了稳定性和性能。 使用Sqoop进行数据传输可以帮助用户实现数据的多样化处理,例如将用户在关系型数据库中的数据导入Hadoop中进行大数据分析,或者将Hadoop中的计算结果导出到关系型数据库中进行进一步的报表生成。通过Sqoop,用户不需要编写复杂的数据转换和传输代码,简化了数据传输的过程,提高了工作效率。 通过深入研究Sqoop的源码,可以更好地理解Sqoop的工作原理和内部机制,并且可以基于源码进行二次开发和功能定制,以满足特定的业务需求。 总之,Sqoop-1.4.7.bin__hadoop-2.6.0源码包为用户提供了一个方便的方式来使用Sqoop,并且可以进行二次开发和定制,以满足各种数据传输需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值