假如有一个很大的文件里面全是数字,你要对其进行排序,你要怎么做呢?

       我们可以将一个很大的文件,切分成很多个小文件,使得每个小文件能够单独的装进内存,并将每个小文件进行内排序(快速排序等等),然后再将多个小文件进行多路归并排序,最终得到一个有序的文件。

      多路归并排序在大数据领域也是常用的算法,常用于海量数据排序。当数据量特别大时,这些数据无法被单个机器内存容纳,它需要被切分位多个集合分别由不同的机器进行内存排序(map 过程),然后再进行多路归并算法将来自多个不同机器的数据进行排序(reduce 过程),这是流式多路归并排序。

      多路归并排序的优势在于内存消耗极低,它的内存占用和输入文件的数量成正比,和数据总量无关,数据总量只会线性正比影响排序的时间。

     

     多路归并排序有3种思路,分别是使用堆、胜者树、败者数。

   从 K 个序列中各取一个元素,并记录每个元素的来源数组,建立一个含 K 个元素的小根堆。此时堆顶就是最小的元素,取出堆顶元素,并从堆顶元素的来源序列中取下一个元素放入堆顶,然后向下调整。在向下调整过程中需要和其两个子结点比较,需要比较 2 次。

 

胜者树

    胜者树在向上调整的时候首先需要获得父结点,然后再获得兄弟结点,然后再比较。比堆少一半的比较次数。

 

败者树

    败者树在向上调整的时候,只需要获得父结点并比较即可。相较于胜者树,它不必获取兄弟结点了,减小了访存时间。

 

 

 

 

 

 

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值