一、实践环境
Ubuntu14.04+JDK1.8.0_25 +Eclipse3.8+ Hadoop2.5.1
一共三台linux机器(virtualbox虚拟机,桥接网络配置静态ip),已经部署好的完全分布式环境。
二、编写WordCount程序
1.启动Eclipse,创建Java Project。
2.配置Java Project,这一步很重要,折腾了半天才配好。这一步需要加入外部的jar文件,Hadoop2.5.1的相关jar包在hadoop-2.5.1/share/hadoop目录下:
有关配置的conf方面在 hadoop-2.5.1/share/hadoop/common/hadoop-commom-2.5.1.jar
(org.apache.hadoop.conf.Configuration
org.apache.hadoop.fs.Path
org.apache.hadoop.io.IntWritable
org.apache.hadoop.io.Text
org.apache.hadoop.util.GenericOptionsParser
)
有关Mapreduce的部分是在 hadoop-2.5.1/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.5.1.jar 里面了
(org.apache.hadoop.mapreduce.Job
org.apache.hadoop.mapreduce.Mapper
org.apache.hadoop.mapreduce.Reducer
org.apache.hadoop.mapreduce.lib.inp