计算框架:一个作业拆分成Map阶段和Reduce阶段 计算数据,挖取资源,基于硬盘的。主要数据清洗,把乱的数据清洗出来
先输入一个大的模块, 然后给它切分成不同的小模块 取出每个小模块的值赋一个1,方便后面的总结
input:日志文件输入
splitting:切片
Mapping:多个键值对转换成一系列键值对
shuffling:洗牌,把散落的计算结果按照key值进行放在一起,把相同花色放在一起
Reducing:相同的key结合在一起,也就是一个合并处理,最后进行统计数据出现多少次
TextInputFormt 读取文本文件
项目中创建data目录,创建word.txt文件
java::hadoop
html
css
java::java
html
1、实现map
创建类继承Mapper,重写map方法
public class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable>{
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, Inte