纠结了一会才弄出来这个问题,最开始是编写了mapreduce,想测试呢,就打包成jar 扔到虚拟机上,又不能断点来搞,所以在本地搞了一下远程执行mr。
环境:
windows7 Hadoop2.6 idea
在idea中创建maven项目,然后配置maven,
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.6.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>2.6.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.6.2</version>
</dependency>
配置完maven之后会导入很多的jar包,之后我编写了代码,执行main方法跑的时候总是报错,后来搜了搜,
发现缺少包的导入,所以就另外导入了hadoop需要的jar
这些包一定要导入,不然就不能执行,
之后要说的是代码的部分,我的main方法部分代码
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
conf.set("fs.default.name", "hdfs://192.168.218.251:9000"); //打包jar的时候不需要指定这个 可以注释.
conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());//打包jar的时候不需要指定这个 可以注释.
conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());//打包jar的时候不需要指定这个 可以注释.
Job job = Job.getInstance(conf, "my MapReduce");
job.setJarByClass(myMapReduce.class);
job.setMapperClass(TokenizerMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(ProductModel.class);
// job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
// job.setNumReduceTasks(1);
// FileInputFormat.addInputPath(job, new Path("/user/jdz_credit/t_zon/part-m-00000"));
// FileOutputFormat.setOutputPath(job, new Path("/user/jdz_credit/output"));
long time = new Date().getTime();
FileInputFormat.addInputPath(job, new Path("hdfs://192.168.218.251:9000/user/jdz_credit/t_zon/part-m-00000"));
FileSystem.get(conf).delete(new Path("hdfs://192.168.218.251:9000/user/jdz_credit/output"), true);
FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.218.251:9000/user/jdz_credit/output"));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
首先就是指定地址,然后是inpath和outpath,总之在windows下测试的话一定要写明地址。
做个笔记怕以后忘了