![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
小江_xiaojiang
这个作者很懒,什么都没留下…
展开
-
单词计数
输入实例: hello world hello hadoop hello mr 输出实例 hadoop 1 hello 3 mr 1 package mapreduce.test; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configu原创 2015-05-15 21:44:52 · 586 阅读 · 0 评论 -
求最大值和最大k个值
来源吴超7天视频 1.求最大值 package suanfa; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Pa原创 2015-05-16 09:36:17 · 723 阅读 · 0 评论 -
HDFS的运行原理
转载:http://www.cnblogs.com/laov/p/3434917.html 简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点: ① 保转载 2015-06-17 21:17:23 · 477 阅读 · 0 评论 -
MapRecuce工作原理
转载地址http://www.aboutyun.com/thread-6723-1-1.html 有时候我们在用,但是却不知道为什么。就像苹果砸到我们头上,这或许已经是很自然的事情了,但是牛顿却发现了地球的万有引力。ok了,希望通过了解MapReduce,我们能够写出更好的MapReduce例子。 第一部分:MapReduce工作原理 MapReduce 角色 •C转载 2015-06-17 20:50:06 · 912 阅读 · 0 评论 -
Hbase与wordcount的结合使用
文章来源:hadoop实战2 程序首先从文件中收集数据,在shuffle完成之后进行统计并计算,最后将计算结果存储到hbase中。 输入样例: hello hadoop hello world bye hadoop bye world 输出样例: scan 'wordcount' ROW COLUMN+CELL bye column=content:count ,timesta原创 2015-05-17 11:21:36 · 834 阅读 · 0 评论 -
自定义数据类型,处理手机上网数据
数据和代码来源:吴超的7天视频 数据类型如下图所示: 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40原创 2015-05-16 09:12:13 · 500 阅读 · 0 评论 -
partioner编程
分区编程: 1.根据业务需要,产生多个输出文件 2.多个reduce任务在运行,提高整体job的运行效率 package partition; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuratio原创 2015-05-16 09:39:33 · 525 阅读 · 0 评论 -
数据分组
来源吴超7天视频 输入样例 3 3 3 2 3 1 2 2 2 1 1 1 数据分组后为 1 1 2 1 2 2 3 1 3 2 3 3 输出样例,输出每组中最小值 1 1 2 1 3 1 package group; import java.io.DataInput; import java.io.DataOutput;原创 2015-05-16 09:30:19 · 422 阅读 · 0 评论 -
自定义数据类型,实现数据排序
代码来源吴超7天视频 输入样例: 3 1 3 3 1 1 1 2 2 2 2 1 输出样例: 1 1 1 2 2 1 2 2 3 1 3 3 package sort; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.UR原创 2015-05-16 09:19:40 · 465 阅读 · 0 评论 -
数据去重
输入样例 file1 a a b b c file2 a b d d 输出样例 a b c d package mapreduce.test; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; im原创 2015-05-15 21:46:36 · 417 阅读 · 0 评论 -
单表关联
实例中给出child-parent表,要求输出grandchild-grandparent表 样例输入: file: child parent Tom Lucy Tom Jack Jone Lucy Jone Jack Lucy Mary Lucy Ben Jack Alice Jack Jesse Terry Alice Terry Jesse Philip Terr原创 2015-05-15 21:52:21 · 435 阅读 · 0 评论 -
多表关联
输入两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表 输入样例: factory: factoryname addressed Beijing Red Star 1 Shenzhen Thunder 3 Guangzhou Honda 2 Beijing Rising 1原创 2015-05-15 21:57:16 · 499 阅读 · 0 评论 -
数据排序
样例输入 file1: 2 32 654 32 15 756 65223 file2: 5956 22 650 92 file3: 26 54 6 样例输出: 1 2 2 6 3 15 4 22 5 26 6 32 7 32 8 54 9 92 10 650 11 654 12 756 13 5956 14 65223 packa原创 2015-05-15 21:49:57 · 396 阅读 · 0 评论 -
Hadoop如何计算map数和reduce数
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。 首先分析一下job的maptask数 当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。 job.split中包含split的个数由FileInp转载 2016-03-27 00:08:41 · 2798 阅读 · 0 评论