mapreduce使用
配置文件
这一步的配置比较简单,直接找到/home/had/hadoop/etc/hadoop目录下的mapred-site.xml.template文件增加如下内容即可。
注意: 如果你的hadoop安装的不是这个目录,需要修改相应的值。
配置完之后不需要重启。
编写MapReduce代码
在编写MapReduce代码前需要先启动集群
这里我用hdfs命令上传了testfile文件,文件内容如下
Hello world
i love hadoop
hadoop hello
直接到eclipse新建一个MapReduce项目,创建包,创建类(如果不知道怎么创建,之前博客里有写)
下面以Wordcount为例 (即统计文件中各单词的数量)
代码思想:创建configuration对象,创建job实例,设置Wordcount类。利用maper处理文件输出,到reducer执行,最后把结果输入到一个新的文件。
package mapreduce;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org<