MapReduce
文章平均质量分 79
小江_xiaojiang
这个作者很懒,什么都没留下…
展开
-
单词计数
输入实例:hello worldhello hadoophello mr输出实例hadoop 1hello 3mr 1package mapreduce.test;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configu原创 2015-05-15 21:44:52 · 591 阅读 · 0 评论 -
求最大值和最大k个值
来源吴超7天视频1.求最大值package suanfa;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pa原创 2015-05-16 09:36:17 · 733 阅读 · 0 评论 -
HDFS的运行原理
转载:http://www.cnblogs.com/laov/p/3434917.html简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保转载 2015-06-17 21:17:23 · 482 阅读 · 0 评论 -
MapRecuce工作原理
转载地址http://www.aboutyun.com/thread-6723-1-1.html有时候我们在用,但是却不知道为什么。就像苹果砸到我们头上,这或许已经是很自然的事情了,但是牛顿却发现了地球的万有引力。ok了,希望通过了解MapReduce,我们能够写出更好的MapReduce例子。第一部分:MapReduce工作原理 MapReduce 角色•C转载 2015-06-17 20:50:06 · 923 阅读 · 0 评论 -
Hbase与wordcount的结合使用
文章来源:hadoop实战2程序首先从文件中收集数据,在shuffle完成之后进行统计并计算,最后将计算结果存储到hbase中。输入样例:hello hadoophello worldbye hadoopbye world输出样例:scan 'wordcount'ROW COLUMN+CELLbye column=content:count ,timesta原创 2015-05-17 11:21:36 · 843 阅读 · 0 评论 -
自定义数据类型,处理手机上网数据
数据和代码来源:吴超的7天视频数据类型如下图所示:1363157985066 1372623050300-FD-07-A4-72-B8:CMCC 120.196.100.82i02.c.aliimg.com 2427 248124681 2001363157995052 138265441015C-0E-8B-C7-F1-E0:CMCC 120.197.40原创 2015-05-16 09:12:13 · 506 阅读 · 0 评论 -
partioner编程
分区编程:1.根据业务需要,产生多个输出文件2.多个reduce任务在运行,提高整体job的运行效率package partition;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf.Configuratio原创 2015-05-16 09:39:33 · 536 阅读 · 0 评论 -
数据分组
来源吴超7天视频输入样例3 33 23 12 22 11 1数据分组后为112 12 23 13 23 3输出样例,输出每组中最小值1 12 13 1package group;import java.io.DataInput;import java.io.DataOutput;原创 2015-05-16 09:30:19 · 427 阅读 · 0 评论 -
自定义数据类型,实现数据排序
代码来源吴超7天视频输入样例:3 13 31 11 22 22 1输出样例:1 11 22 12 23 13 3package sort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.net.UR原创 2015-05-16 09:19:40 · 478 阅读 · 0 评论 -
数据去重
输入样例file1aabbcfile2abdd输出样例abcdpackage mapreduce.test;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;im原创 2015-05-15 21:46:36 · 423 阅读 · 0 评论 -
单表关联
实例中给出child-parent表,要求输出grandchild-grandparent表样例输入:file:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip Terr原创 2015-05-15 21:52:21 · 443 阅读 · 0 评论 -
多表关联
输入两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表输入样例:factory:factoryname addressedBeijing Red Star 1Shenzhen Thunder 3Guangzhou Honda 2Beijing Rising 1原创 2015-05-15 21:57:16 · 504 阅读 · 0 评论 -
数据排序
样例输入file1:232654321575665223file2:59562265092file3:26546样例输出:1 22 63 154 225 266 327 328 549 9210 65011 65412 75613 595614 65223packa原创 2015-05-15 21:49:57 · 404 阅读 · 0 评论 -
Hadoop如何计算map数和reduce数
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInp转载 2016-03-27 00:08:41 · 2826 阅读 · 0 评论