![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
mapreduce
UncleDu
这个作者很懒,什么都没留下…
展开
-
mapreduce在yarn流程
原创 2019-01-17 14:01:38 · 141 阅读 · 0 评论 -
maprecude总结
- map task:读数据:InputFormat–>TextInputFormat 读文本文件–>SequenceFileInputFormat 读Sequence文件–>DBInputFormat 读数据库处理数据:maptask通过调用Mapper类的map()方法实现对数据的处理分区: 将map阶段产生的key-value数据,分发给若干个reduce tas...原创 2019-01-16 13:31:35 · 410 阅读 · 0 评论 -
mapreduce实例1-topN
读取文件request.dat2017/07/28 qq.com/a2017/07/28 qq.com/bx2017/07/28 qq.com/by2017/07/28 qq.com/by32017/07/28 qq.com/news2017/07/28 sina.com/news/socail2017/07/28 163.com/ac2017/07/28 sina.com/new...原创 2019-01-16 15:13:48 · 439 阅读 · 0 评论 -
mapreduce实例2-自定义类型
数据如下1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 200136315799107...原创 2019-01-16 15:14:03 · 162 阅读 · 0 评论 -
(转载)mapreduce实例3-自定义Partioner Shuffle阶段:partition分区以及自定义使用注意事项
一:partition分区(shuffle阶段)Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask(所以这也决定了为什么最终的文件个数,即分区个数跟reducetask数量一样了。)。默认分区是根据key的hashCode对reduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。默认系统的patitioner类,实现类时has...转载 2019-01-16 15:12:39 · 632 阅读 · 0 评论