mapreduce设计模式
入眸幻灭
写代码也是艺术的一种
展开
-
mapreduce概要模式
本栏目主讲MapReduce设计模式,每天更新….. 话说Word Count我就不写了吧…… 数值概要模式 目的:把数据取出进行聚合,最基本的设计模式 主要用于处理数值或者计数,分类等场景,例:sql里面的group by 通过查找最小值的示例具体讲解 运行环境:windows下VM虚拟机,centos系统,hadoop2.2.0,三节点 ,java 1.7 需要处理的数据为 I原创 2015-11-04 23:39:24 · 601 阅读 · 0 评论 -
MapReduce倒排索引概要
使用场景:主要用于索引,以提高搜索数据速度 例如百度搜索运行环境:windows下VM虚拟机,centos系统,hadoop2.2.0,三节点 ,java 1.7 需要处理的数据为 求出每个索引所对应的包含索引的网址package boke;import java.io.IOException;import org.apache.hadoop.conf.Configuration; imp原创 2015-11-10 22:50:54 · 506 阅读 · 0 评论 -
MapReduce计数器计数
MapReduce框架自身就有计数机制跟中输入记录的数量,并且所有的计数器信息都存在JobTracker的内存中,在每个map任务中计数器被序列化,并通过状态更新同步到JobTracker,也就是说各节点的计数器结果会在JobTracker进行汇总适用场景:大数据集收集指定字符的出现次数运行环境:windows下VM虚拟机,centos系统,hadoop2.2.0,三节点 ,java 1.7 例子:原创 2015-11-13 10:34:14 · 627 阅读 · 0 评论