fengzhif0001-CSDN博客

原创 Hadoop MapReduce开发--两个输入数据关联优化方案（增加排序功能）

两表关联后，并对某字段进行排序测试数据：address.txt#地址ID 地址名称1 北京2 上海3 广州employee.txt#人员ID 人员名称地址ID1 张三 12 李四 23 王五 14 赵六 35 马七 3 首先，bean实体类：User...

2019-01-29 10:31:22 295

原创 Hadoop MapReduce开发--两个输入数据关联优化方案

将人员的地址ID完善成为地址名称。输出格式：人员ID，姓名，地址测试数据：address.txt#地址ID 地址名称1 北京2 上海3 广州employee.txt#人员ID 人员名称地址ID1 张三 12 李四 23 王五 14 赵六 35 马七 3U...

2019-01-17 10:10:21 221

转载 Hadoop中 MapReduce中InputSplit的分析

前言MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片，在MapReduce当中作业中，作为map task最小输入单位。分片是基于文件基础上出来的而来的概念，通俗的理解一个文件可以切分为多少个片段，每个片段包括了<文件名，开始位置，长度，位于哪些主机>等信息。在MapTa...

2019-01-13 13:19:24 815

转载 HDFS中Block size的默认大小

关于block size的默认大小，有的说是64 MB，有的说是128 MB。那么具体是从哪个版本由64 MB变成128 MB的？有的说是Hadoop 1.X版本是64MB，2.X版本是128MB，有的说Apache Hadoop 是64MB，Clouder Hadoop是128MB。为了确认上述问题的答案，从Hadoop的官网上看了各个版本的说明文档中关于 Data Blocks 的说明...

2019-01-12 15:11:46 11908

原创 Hadoop MapReduce开发--两个输入数据关联

测试数据：dept.txt#deptno dname loc30 sales chicago20 research dallas10 accounting newyorkemployee.txt#empno ename job mgr hiredate sal ...

2019-01-12 14:58:45 374

原创 Hadoop MapReduce开发--对输入日志数据进行统计

该案例对输入日志数据进行统计：要求：区别统计GET和POST URL访问量测试数据：127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038182.131.89.195 - - [03/Jul/2014:23:37:43 +0800] "GET / H...

2019-01-12 12:41:00 745

原创 Hadoop MapReduce开发--取TopN数据

测试数据：file1.txt1,9819,100,1212,8918,2000,1113,2813,1234,224,9100,10,11015,3210,490,1116,1298,28,12117,1010,281,908,1818,9000,20file2.txt100,3333,10,100101,9321,1000,293102,3881,701,...

2019-01-12 12:36:27 638

原创 Hadoop MapReduce开发--最小最大值

测试数据：file1.txt10210391092001129028file2.txt523083810005mapper代码：import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop...

2019-01-11 14:44:48 506

原创 Hadoop MapReduce开发--平均值

测试数据：china.txt张三 78李四 89王五 96赵六 67english.txt张三 80李四 82王五 84赵六 86math.txt张三 88李四 99王五 66赵六 77mapper代码：import org.apache.hadoop.io.In...

2019-01-11 14:08:47 216

原创 Hadoop MapReduce开发--升序排序数据，且数据不去重

测试数据：file1.txt232654321575665223file2.txt59562265092file3.txt26546Mapper代码：import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import o...

2019-01-11 10:55:57 623 3

原创 Hadoop MapReduce开发--数据去重

环境 hadoop-2.9.1 windows7 idea15示例数据file1.txt2012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-3 cfile2.txt2012-3-1 b2012-3-2 a2012-3-3 b2012-3-4 d2012-3-...

2018-10-10 10:17:32 352

冯大叔的博客