mapreduce实例
小飞侠-2
我的github地址https://github.com/liujiekasini 欢迎大家分享讨论
展开
-
hadoop中使用MapReduce编程实例(转)
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大了,看过以后对MapReduce编程基本有了大概的了解。看了以后受益匪浅啊,赶紧保存起来。 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义转载 2016-02-16 09:22:43 · 617 阅读 · 0 评论 -
基本MapReduce模式
计数与求和 问题陈述: 有许多文档,每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其他什么统计值。例如,给定一个log文件,其中的每条记录都包含一个响应时间,需要计算出平均响应时间。 解决方案: 让我们先从简单的例子入手。在下面的代码片段里,Mapper每遇到指定词就把频次记1,Reducer一个个遍历这些词转载 2016-02-16 14:37:09 · 334 阅读 · 0 评论 -
Hadoop: MapReduce2的几个基本示例
1) WordCount 这个就不多说了,满大街都是,网上有几篇对WordCount的详细分析 http://www.sxt.cn/u/235/blog/5809 http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/27/3036549.html 这二篇都写得不错, 特别几张图画得很清晰 2) 去重转载 2016-02-16 14:34:21 · 1004 阅读 · 0 评论 -
MapReduce初级经典案例实现
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1:转载 2016-02-16 14:28:16 · 1728 阅读 · 0 评论 -
Hadoop MapReduce示例代码
《Hadoop in Action》第四章习题: 0.MaxValue:要求输出cite75_99.txt中最大的CITED值: 要点: 1.Mapper只输出它所处理的数据中的最大值。(重写cleanup()函数) 2.设置Reducer数目为一个 -D mapred.reduce.tasks=1,同时也只输出所处理的最大值。(重写cleanup()函数)转载 2016-02-16 09:32:17 · 661 阅读 · 0 评论 -
Hadoop MapReduce执行过程详解(带hadoop例子)
分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。整个流程如图: Mapper任务的执行过程详解 每个Mapper任务是一个java进程,它转载 2016-02-16 09:30:36 · 1786 阅读 · 0 评论 -
MapReduce实例浅析
1.MapReduce概述 Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结转载 2016-02-16 09:26:28 · 709 阅读 · 0 评论 -
MapReduce经典案例分享
资源文件math 张三 99 李四 90 王五 90 赵六 60 资源文件china 张三 79 李四 75 王五 80 赵六 90 资源文件english 张三 89 李四 75 王五 70 赵六 90 分析: map 阶段将将学生姓名作为key 成绩作为value.这样Reduce阶段得到的数据就是 key:张三 v转载 2016-02-16 09:24:18 · 2975 阅读 · 0 评论 -
自己实现 一个MapReduce 示例
有这样一个实际的问题需要要通过hadoop的来解决一下。 有一个学生成绩表,有学生姓名 和成绩格式如下 [html] view plain copy zs 89 zs 100 ls 98 ls 100 zs 20 ww 89 ww 67 ls 30 ww 20 一个学生 有多个科目,有不转载 2016-02-16 09:23:20 · 2296 阅读 · 0 评论 -
Hadoop上路_13-MapReduce常用算法
目录[-] 1.排序: 1)数据: 2)代码: 3)测试: 2.去重: 1)数据: 2)代码: (1)map和reduce: (2)配置输出: 3)测试: 3.过滤: 1)数据: 2)代码: (1)map和reduce: (2)配转载 2016-02-16 14:39:09 · 877 阅读 · 1 评论