上一篇文章我们测试了hadoop自带的词频统计,本节将使用java完成自定义的词频统计。
1 系统、软件和前提约束
- 完成java访问HDFS服务
https://www.jianshu.com/p/386cd966c04f - 测试了hadoop自定义的词频统计
https://www.jianshu.com/p/327d2af3903d
2 操作
- 1 在java访问HDFS的那个项目中,加入以下的测试类:
package net.wanho.mr;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {
public static void ma