hadoop
小鹿茶_
测试一哈
展开
-
hadoop学习之单词计数及变形(一)
最近入职了一家大数据公司实习,之前没有接触过大数据,所以入职之后就从基础开始学起,先做了单词计数一、统计单词个数: 思路很简单,单词之前有空格,在mapper中将单词按照空格读进来,写到context中,{am,1},{hello,1},{word,1}...这样的形式,在reducer中读入mapper的输入,对于每一个key,统计单词出现的次数。在mapper之后,reduce...原创 2019-01-13 16:26:26 · 615 阅读 · 0 评论 -
hadoop学习之单词计数及变形(二)自定义分区排序
上一个博客写了统计单词出现的个数,也写了统计单词首字母出现的个数,因为是统计单词首字母出现的个数,这些单词中有很多是重复的,如何对单词去重后,统计单词首字母出现的次数呢? 统计不同单词首字母出现的个数的同时同时统计单词首字母出现的个数。例如:initials total uniquea 100 20思路是首先对单词进行分区,这个分区可以不写,默认对键值进行分...原创 2019-01-15 11:05:01 · 642 阅读 · 0 评论 -
hadoop学习之自定义对象实现 writeable
Hadoop虽然 已经实现了一些非常有用的Writable,如Text 、IntWritable、NullWritable等,但有时候需要构造一些更加复杂的结果存入context中,使用这些方法可能就不是那么方便。自定义对象分为Key和Value二种情况如果需要自定义value对象,则实现Writable接口,实现的接口为是:public class FlowBean implement...原创 2019-01-15 11:25:27 · 946 阅读 · 0 评论