鄙人不才,最近才接触Hadoop,用来做些分析。
下面把搭建Hadoop环境遇到的一些坑记录一些,做个记录。
一、搭建虚拟机,初试Hadoop
1、使用VMWare安装Ubuntu16.04,包括添加共享等
3、下载Hadoop2.6.0,是bin版本的
4、参考Hadoop的文档,在Linux下运行了一下Standalone Operation,期间会有权限、网络等问题,解决了。
二、搭建调试环境,运行Hadoop
1、参考Hadoop的文档,搭建伪集群,可能需要把Hadoop目录Owner设置为当前用户;另外,可能出现“JAVA_HOME is not set and could not be found”的问题,在hadoop-env.sh里export一下,或者直接在抛错的脚本前export一下就OK了。成功的话,可以使用浏览器访问到http://ip_address:50070/。
2、参考木偶的《Windows下使用Hadoop2.6.0-eclipse-plugin插件》,完成了eclipse的配置。
2.1、安装JDK1.7,使用eclipse MARS.2
2.2、下载Hadoop2.6.0,是bin版本的
2.3、没有使用Ant编译hadoop的eclipse plugin,VPN连不上了,用的木偶给的链接
2.4、按照木偶的思路,完成在eclipse的Project Explorer的DFS Locations中可查看到HDFS的目录路径
2.5、配置完成后,即可运行MR任务
2.6、运行时会遇到各种问题,木偶给了一些总结,基本可以涵盖,另一篇文章也有些帮助
2.7、在执行中遇到一个“Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V”的问题,由于我用的Hadoop2.6.0版本,需要使用2.6.0版本的hadoop.dll和winutils.exe,可以从github上下载编译,我偷懒直接从CSDN里下载了一个。
至此,我的Hadoop初步环境就搭建好了,下一步,可以开始Hadoop之旅了。