假如有一个很大的文件里面全是数字,你要对其进行排序,你要怎么做呢?

       我们可以将一个很大的文件,切分成很多个小文件,使得每个小文件能够单独的装进内存,并将每个小文件进行内排序(快速排序等等),然后再将多个小文件进行多路归并排序,最终得到一个有序的文件。

      多路归并排序在大数据领域也是常用的算法,常用于海量数据排序。当数据量特别大时,这些数据无法被单个机器内存容纳,它需要被切分位多个集合分别由不同的机器进行内存排序(map 过程),然后再进行多路归并算法将来自多个不同机器的数据进行排序(reduce 过程),这是流式多路归并排序。

      多路归并排序的优势在于内存消耗极低,它的内存占用和输入文件的数量成正比,和数据总量无关,数据总量只会线性正比影响排序的时间。

     

     多路归并排序有3种思路,分别是使用堆、胜者树、败者数。

   从 K 个序列中各取一个元素,并记录每个元素的来源数组,建立一个含 K 个元素的小根堆。此时堆顶就是最小的元素,取出堆顶元素,并从堆顶元素的来源序列中取下一个元素放入堆顶,然后向下调整。在向下调整过程中需要和其两个子结点比较,需要比较 2 次。

 

胜者树

    胜者树在向上调整的时候首先需要获得父结点,然后再获得兄弟结点,然后再比较。比堆少一半的比较次数。

 

败者树

    败者树在向上调整的时候,只需要获得父结点并比较即可。相较于胜者树,它不必获取兄弟结点了,减小了访存时间。

 

 

 

 

 

 

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
对于一个TB级别的文件,如果直接在单机上进行排序是非常耗时的,因此可以选择使用分布式计算框架来实现。其中,Hadoop是一个非常流行的分布式计算框架,而MapReduce是Hadoop中最基本的计算模型,用于处理大规模数据的并行计算。 下面简单介绍一下如何使用MapReduce来实现乱序数字文件排序。 首先,需要编写一个MapReduce程序,其中Mapper将每个数字作为key,将其value设为一个空字符串,Reducer将所有的key按照大小顺序输出到结果文件中。Mapper和Reducer的代码如下: ```java public static class SortMapper extends Mapper<LongWritable, Text, LongWritable, Text> { private LongWritable number = new LongWritable(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); number.set(Long.parseLong(line)); context.write(number, new Text("")); } } public static class SortReducer extends Reducer<LongWritable, Text, LongWritable, Text> { public void reduce(LongWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException { context.write(key, new Text("")); } } ``` 然后,需要在Hadoop集群上运行这个MapReduce程序。在运行之前,需要将待排序文件上传到HDFS中,并指定输入和输出路径。在运行的过程中,Hadoop会自动将输入文件分片并分配给不同的Mapper进行处理,然后Reducer会将所有的结果合并起来输出到指定的输出路径中。下面是一个简单的命令行示例: ``` hadoop jar myjar.jar mypackage.SortJob -D mapred.reduce.tasks=1 /input /output ``` 其中,myjar.jar是包含MapReduce程序的Java Archive文件,mypackage.SortJob是运行MapReduce程序的类,-D mapred.reduce.tasks=1指定了Reducer的数量为1,/input是待排序文件在HDFS上的路径,/output是排序结果保存在HDFS上的路径。 最后,当MapReduce程序运行完成后,输出路径中会包含已经排序好的结果文件
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值