MapReduce排序

最新推荐文章于 2022-06-12 22:36:32 发布

lzm1340458776

最新推荐文章于 2022-06-12 22:36:32 发布

阅读量2.3k

点赞数 1

分类专栏： Hadoop Hadoop案例实战文章标签： Hadoop MapReduce 排序 MapReduce排序

本文链接：https://blog.csdn.net/lzm1340458776/article/details/44978379

版权

本文介绍了如何利用MapReduce在Hadoop环境中实现大数据的排序。MapReduce默认对Key进行排序，通过将排序数据设为Key，可以达到排序目的。文中详细讲解了针对含有重复数值的排序技术实现，并给出了具体的代码示例。

摘要由CSDN通过智能技术生成

一：背景

数据排序是许多实际任务执行时需要完成的第一项工作，比如给销售额进行排名、求top N等操作都需要用到排序，使用MapReduce对数据进行简单排序思路是非常简单的。因为MapReduce本身就是支持排序的，MapReduce默认是对Key进行排序，我们可以将要排序的数据作为key进行输出就自动完成排序咯。

二：技术实现

#需求：现有如下数据，按从小到大进行排列

注：数据中有相同的数字，需要采用取巧的方法，保留相同的数据(见源代码)。

实现代码：

public class SimpleSortMapReduce {
	// 定义输入输出路径
	private static final String INPATH = "hdfs://liaozhongmin21:8020/sortFil

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lzm1340458776

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MapReduce排序—分组排序

Junds0的博客

11-20

2282

任务描述本关任务：对天气数据按照一定排序规则进行排序。相关知识首先，我们回顾一下在 MapReduce 中，排序和分组在哪里被执行：,从上图中可以清楚地看出，在 Step1.4 也就是第四步中，需要对不同分区中的数据进行排序和分组，默认情况下，是按照 key 进行排序和分组。在一些特定的数据文件中，不一定都是类似于 WordCount 单次统计这种规范的数据，比如下面这类数据，它虽然只有两列，但是却有一定的实践意义。

MapReduce排序，分区，分组总结

qq_43206800的博客

07-22

1928

1. 分区 1.1 自定义分区器 1) 自定义分区器继承 Partitioner类，并重写getPartition方法 2) 在driver类中设置使用 job.setPartitionerClass(PhoneNumPartitioner.class); 3) 设置reduce的个数正常情况下，根据分区器业务来决定设置多少个，说白了就是分区器的逻辑会生成多少个分区，则设置的多少个reduce 1.2 分区使用的注意事项: 1). reduce个数的设置如果不设置，red

参与评论您还未登录，请先登录后发表或查看评论

java mapreduce实例_Mapreduce实例——排序

weixin_42465953的博客

02-26

892

原理Map、Reduce任务中Shuffle和排序的过程图如下：流程分析：1.Map端：(1)每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小(默认为64M)为一个分片，当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M，由io.sort.mb属性控制)，当该缓冲区快要溢出时(默认为缓冲区大小的80%，由io.sort...

Mapreduce的排序

L13763338360的博客

08-16

4645

1. Mapreduce排序排序是MapReduce的灵魂，MapReduce在Map和Reduce的两个阶段当中，都在反复地执行排序。 1.1 全局排序排序分为全局排序、部分排序、二次排序、辅助排序。全局排序，就是在一个MapReduce程序产生的输出文件中，所有的结果都是按照某个策略进行排序的，例如降序还是升序。MapReduce只能保证一个分区内的数据是key有序的，一个分区对应一个reduce，因此只有一个reduce就保证了数据全局有序，但是这样又不能用到Hadoop集群的优势。 1.

Mapreduce排序介绍

klionl的博客

04-16

1015

Hadoop--入门Mapreduce排序介绍1. 排序概述2. 全排序案例3. 区内排序案例 Mapreduce排序介绍 1. 排序概述排序是Mapreduce中重要的一步，MapTask和ReduceTask均会对数据按照key进行排序，该操作属于 Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。 ...

mapreduce 排序

chun2674的博客

07-18

580

mapreduce的排序主要分部分排序、全排序和辅助排序（二次排序）可以直接在reduce中在对数据进行排序，但是这对于reduce的负担太重，数据处理的时间消耗也会大大增加 mapreduce机制中排序只会针对键进行排序，所以如果想对某个数据进行排序，一定要将其设置为map输出的键，排序主...

Mapreduce排序

qq_45973433的博客

06-12

1969

Mapreduce排序

MapReduce排序总结

ThreeAspects的博客

12-20

1055

【1】Hadoop默认的排序算法，只会针对key值进行排序，按照字典顺序排序【2】二次排序，在一个数据文件中，首先按照key排序。在key相同的情况下，再按照value大小排序。难度在于要同时参考两列的数据，可以将一行中的两列值封装到bean中。实现WritableComparable接口，重写compareTo进行排序，指定比较规则，实现二次排序，具体可参见博客【3】全局排序 1、使用一个R...

mapreduce排序

最新发布

09-08

在MapReduce中，排序是非常重要的。MapReduce在Map和Reduce的两个阶段中都会执行排序操作。全局排序是指在一个MapReduce程序产生的输出文件中，所有的结果都是按照某个策略进行排序的，例如降序还是升序。在全局排序...

MR -- WritableComparable排序

a1786742005的博客

02-27

994

一、排序概述 1、排序是 MR 中非常重要的操作之一，MapTask 和 ReduceTask 都会对数据按照 key 进行排序。该操作是默认行为。任何 MR 程序中数据均会被排序，而不看逻辑是否需要。 2、MapTask 中，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率到一定的阈值，再对缓冲区数据进行一次快排，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行...

MapReduce 之排序

hochoy的博客

05-05

1824

排序是MapReduce核心技术，尽管实际应用中可能不需要对数据进行排序，但是MapReduce过程本身就含有排序的概念。MapReduce的排序是默认按照Key排序的，也就是说输出的时候，key会按照大小或字典顺序来输出，比如一个简单的wordcount，出现的结果也会是左侧的字母按照字典顺序排列。 1）排序的分类：（1）部分排序：MapReduce中默认的排序方式，默认输出是按照键的自...

mr统计每年中每月温度的前三名

weixin_30535565的博客

09-09

151

weatherMapper package com.laoxiao.mr.weather; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; import org.apache.hado...

MapReduce(全局排序)

Gerry_RedBean的博客

06-25

470

主要分类两次MapReduce, 最后一次MapReduce 的ReduceTask需要设置为1个 1. 自定义序列化数据类型 package com.gerry.bigdata.mapreduce.pagecountsort; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; ...

MapReduce排序过程

a6a6a_6的博客

03-28

3444

排序是MapReduce框架中最重要的操作之一。 MapTask和ReduceTask均会对数据按照key 进行排序。该操作属于Hadoop 的默认行为，任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。发生排序时机 MapTask 1，当环形缓冲区使用率达到一定阈值后，对缓冲区的数据进行一次快速排序。 2，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，他会对磁盘上所有文件进行归并排序 Red...

大数据中的Mapreduce的排序

枣泥馅的博客

04-14

387

Mapreduce的排序都是基于K2排序的：自定义字符串Text类型的排序自定义数字intWritable的排序自定义自定义数据类型的排序 MapReducer的字符排序是按照字典顺序排序的，数字排序则是按照从小到大的排序的，如果我们想修改默认的排序需要继承他们的对应类型的Comparator的类 import org.apache.hadoop.io.Text.Compara...

mapreduce-排序的介绍

qq_45841239的博客

10-26

230

看这排序是mapreudce框架中最为重要的操作之一，排序属于mapreduce的默认操作，在maptask和reducetask中都会对数据按照key进行排序，也就是说任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认是按照字典顺序排序，实现方法为快排。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sQr4Sb7f-1603712933723)(https://s1.ax1x.com/2020/10/21/BPJ2xP.png)] 对于排序亦有四种分类： [

13mapreduce——排序

qq_34352013的博客

11-23

1513

作用类似于sql语句中的order by功能默认情况下，mapreduce中，会默认对Mapper输出的key来进行自然排序,所以如果说希望对结构中的某个字段进行排序的话，就把这个字段放到map输出的key里面去。【排序是为了合并，为了reduce的计算分组】概述 1、在MapReduce中，会默认对Mapper输出的键来进行自然排序；，所以也要求Mapper输出的键对应的类型必须实现Com...

MapReduce学习4-1：排序

qq_43967413的博客

01-01

2201