多路归并排序_大数据 | 大数据基础算法之外存模型算法:外存排序

大数据 | 大数据基础--算法之外存模型算法:外存排序

亲爱的读者朋友大家晚上好,上次我们简单介绍了外存模型以及一些基本问题,这次我们来介绍外存模型下的排序算法。

外存模型

到目前为止,按照存储模型,我们学过的算法模型应该分为两种:一种是模型,也就是我们常用的算法的设计模型,另一种是模型,内存比数据量小,外存是无限的。

外存访问与内存访问有一些差异:

  • 与外存相比,内存的速度更快
  • 外存的连续访问比随机访问代价小,也就是说:以块为单位访问,而不是

在模型中,内存的大小为,页面大小为,外存大小无限,页面大小为。

外存排序问题

考虑外存排序算法的时候要与外存模型紧密地结合起来。

算法

  • 给定个数据,将其分成大小为的组
  • 每一组数据可以在内存排序
  • 将每一组数据从外存读进来需要次
  • 对所有分组进行以上操作,于是每个分组内部都是已经排好序的数据
  • 对这些排好序的分组进行多路归并排序
  • 每次可以归并个分组

过程解释

首先需要明白的一点是从外存向内存转移数据的时候,一次只能转移的数据量。于是,要想一次把内存读慢,相应的次数就是。另外进行多路归并排序时,至多可以归并多少分组。从每个分组读出来一个页面,然后进行排序,所以这里跟每个分组的大小没有关系,只跟内存的大小有关,所以是。

图示

cd04de7023d36c0542754590f4fef28c.png

评价

我们来对上述算法的代价进行简单的分析:首先时间复杂度分为两个部分,一个是分组内排序,另一个是分组间归并排序。对于分组内排序,只需要将每个分组的数据读入内存即可,这部分对应的时间复杂度为。对于归并排序,相应的时间代价应该是每一趟归并的开销之和,而每一趟归并都需要把所有数据都导入到内存中一次,这个时间代价为,因此我们只需要计算处进行归并的趟数即可。如图所示,归并的趟数可以表示为。综上所述:总的时间开销为:。

总结

以上就是关于外村模型下对数据进行排序问题的解决方案。下次我们会对算法进行分析,敬请期待~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值