自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 MapReduce实战案例6 自定义InputFormat

1.背景 在企业开发中,hadoop框架自带的InputFormat不能满足所有的应用场景,需要自定义InputFormat来解决实际问题 2.需求 将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value。 3.代码实现 1.FileInputFormat的实现类 package com.zj.practice.ma

2020-11-14 17:35:40 147

原创 MapReduce实战案例5 自定义OutputFormat

1.背景 为了可以自定义输出文件的路径和格式,可以自定义OutputFormat 2.需求 过滤输入的log日志,包含jinghang的网站输出到e:/jinghang.log,不包含jinghang的网站输出到e:/other.log。 3.代码实现 1.mapper端 package com.zj.practice.mapreduce05.user_defined_OutputFormat; import org.apache.hadoop.io.LongWritable; import org.ap

2020-11-14 17:12:12 113

原创 MapReduce实战案例4 分区

1.背景 在环形缓冲区向磁盘溢写到磁盘的过程中,是按照系统默认的分区计算公式进行计算,可以自定义指定的字段,按照一定的规则,将<key,value>键值对输出到分区中。 2.默认计算公式 (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks 3.需求 将手机号输出到不同文件中 4.实现步骤 自定义类继承Partitioner,重写getPartitioner方法,返回的是分区号,符合条件的进入相同分区 在driver类中,手动设置自

2020-11-14 16:59:26 344

原创 MapReduce实战案例3 分组

1.背景 reduce处理的数据,是根据key值进行分组,有时候,需要根据对象的某个字段进行分组,他们同时进入reduce端进行处理 2.自定义分组步骤 自定义类继承WritableComparator 重写compare()方法 创建一个构造将比较对象的类传给父类 protected OrderGroupingComparator() { super(OrderBean.class, true); } 原因分析 源码: protected WritableComparator(Class<

2020-11-14 16:22:32 296

原创 MapReduce实战案例2 mapjoin

1.使用场景 适用于一张表十分小、一张表很大的场景。 2.优点 思考:在Reduce端处理过多的表,非常容易产生数据倾斜。怎么办? 在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。 3.具体步骤 在Mapper的setup阶段,将文件读取到缓存集合中。 在驱动函数中加载缓存。 4.需求 表4-4 订单数据表t_order id pid amount 1001 01 1 1002 02 2 1003

2020-11-14 15:55:24 120

原创 MapReduce实战案例1

问题描述 班级,姓名,是否出勤(0:未出勤;1:出勤),是否迟到(0:未迟到,1:迟到),每月每人总的考勤统计为4天 现有class20、class21、class22、三个班级的月度考勤主要涵盖学生信息(学生的班级、姓名、是否旷课、是否迟到、考勤日期等) 1.统计出每个同学月度的出勤率(出勤总天数/(未出勤天数+出勤天数)),旷课总天数、出勤总天数、根据出勤率排序,倒叙排列(完成得85) 输出数据格式如下 班级 姓名 出勤率 出勤总天数 未出勤天数

2020-11-14 15:26:59 350

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除