大数据入门:WordCount程序解析
为一个顽固的家伙写的,都要考试了还不让我给详细讲一下,我就想白眼死你!!!
一、输入
输入源可以是一个文件,也可以是包含多个文件的文件夹。
具体的只需要在程序的文件输入路径中指定就可以。这里以一个txt文件为例:
二、程序解析
(1)我们需要了解MapReduce(MR)的过程
(2) 程序代码
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.l