Hadoop(五) -- MapReduce（三）shuffle

VIP文章 BubbleMa

已于 2022-03-19 18:10:49 修改

阅读量418

点赞数

分类专栏： Hadoop 文章标签： mapreduce hadoop 大数据

于 2021-12-13 17:04:51 首次发布

本文链接：https://blog.csdn.net/qq_26857793/article/details/121862982

版权

mepreduce共三个模块，map、shuffle、reduce。map端读取数据并将数据映射为键值对发送给ruduce端，在发送过程中会进过一个shuffle过程（分区、排序、分组），数据先按分区规则进行分区，分区后再对每个分区中的数据进行排序，最后再对排序后的数据进行分组（相同key的为一组）。经过shuffle之后，数据已经分为了不同的区，每个区中的数据已经排好序传入reduce端，reduce端每次读入一个组的数据进行处理。

一、排序

shuffle过程中会对数据进行一次排序，方便后面的分组。默认排序规则是字典顺序，当map端发送的key是自定义类型时，由于shuffle是按照key进行排序，所以自定义类型需要指定排序规则。

二次排序：在实际的业务中时常也有排序的需求，此时可利用shuffle过程中的排序对业务数据进行排序。

步骤：

1. 实现WriableCompareble接口

2. 实现compareTo() 方法

// 泛型传入要比较的类型
static class FlowBean implements WritableComparable<FlowBean>{
	private String upFlow;
	private String downFlow;

	public void write(DataOutput dataOutput) throws IOException {
		dataOutput.writeUTF(upFlow);
		dataOutput.writeUTF(downFlow);
	}

	public void readFields(DataInput dataInput) throws

最低0.47元/天解锁文章

BubbleMa

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop(五) -- MapReduce（三）shuffle

mepreduce共三个模块，map、shuffle、reduce。map端读取数据并将数据映射为键值对发送给ruduce端，在发送过程中会进过一个shuffle过程（分区、排序、分组），数据先按分区规则进行分区，分区后再对每个分区中的数据进行排序，最后再对排序后的数据进行分组（相同key的为一组）。经过shuffle之后，数据已经分为了不同的区，每个区中的数据已经排好序传入reduce端，reduce端每次读入一个组的数据进行处理。一、排序当map端发送的key是自...
复制链接

扫一扫