开始在章鱼大数据网站上学习hadoop框架,新手菜鸟一个,学习过程中遇到了很多问题,决定开个博客记录一下。
首先是hadoop环境的安装,用的是windows环境下的hadoop2.6.0,找eclipse的jar包找了好久,结果最后也没用上eclipse,在Idea中用maven部署的。
废话不多说,下面开始步骤。
hadoop官网下载:https://archive.apache.org/dist/hadoop/common/,下载hadoop-2.x.x.tar.gz
下载后的解压路径建议放在磁盘的根目录下,路径中不要有中文,不要带空格!
之后配置环境变量等,参考博文中写的挺清楚的。
Windows下搭建本地hadoop开发环境:参考https://blog.csdn.net/wangaz521/article/details/79717177
eclipse配置hadoop-eclipse-plugin:参考https://www.cnblogs.com/supiaopiao/p/7240308.html,https://www.cnblogs.com/justinzhang/p/4261851.html
Idea中,新建maven项目,不选择框架,在pom.xml中加入以下:
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.2</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<artifactId>maven-dependency-plugin</artifactId>
<configuration>
<excludeTransitive>false</excludeTransitive>
<stripVersion>true</stripVersion>
<outputDirectory>./lib</outputDirectory>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>1.7</source>
<target>1.7</target>
</configuration>
</plugin>
</plugins>
</build>
dependency中不能写hadoop-core,因为最高只有1.x的版本,而现在都是2.x版本的hadoop,运行会出错。算是个坑吧。
还有项目中一定要配置log4j,不然也不能运行
新建log4j.properties,log4j配置代码如下:
# Configure logging for testing: optionally with log file
#log4j.rootLogger=debug,appender
log4j.rootLogger=info,appender
#log4j.rootLogger=error,appender
#\u8F93\u51FA\u5230\u63A7\u5236\u53F0
log4j.appender.appender=org.apache.log4j.ConsoleAppender
#\u6837\u5F0F\u4E3ATTCCLayout
log4j.appender.appender.layout=org.apache.log4j.TTCCLayout
至此,环境搭建完成,可以写代码啦。