大数据 | 大数据基础--算法之外存模型算法:外存排序
亲爱的读者朋友大家晚上好,上次我们简单介绍了外存模型以及一些基本问题,这次我们来介绍外存模型下的排序算法。
外存模型
到目前为止,按照存储模型,我们学过的算法模型应该分为两种:一种是模型,也就是我们常用的算法的设计模型,另一种是模型,内存比数据量小,外存是无限的。
外存访问与内存访问有一些差异:
- 与外存相比,内存的速度更快
- 外存的连续访问比随机访问代价小,也就是说:以块为单位访问,而不是
在模型中,内存的大小为,页面大小为,外存大小无限,页面大小为。
外存排序问题
考虑外存排序算法的时候要与外存模型紧密地结合起来。
算法
- 给定个数据,将其分成大小为的组
- 每一组数据可以在内存排序
- 将每一组数据从外存读进来需要次
- 对所有分组进行以上操作,于是每个分组内部都是已经排好序的数据
- 对这些排好序的分组进行多路归并排序
- 每次可以归并个分组
过程解释
首先需要明白的一点是从外存向内存转移数据的时候,一次只能转移的数据量。于是,要想一次把内存读慢,相应的次数就是。另外进行多路归并排序时,至多可以归并多少分组。从每个分组读出来一个页面,然后进行排序,所以这里跟每个分组的大小没有关系,只跟内存的大小有关,所以是。
图示
评价
我们来对上述算法的代价进行简单的分析:首先时间复杂度分为两个部分,一个是分组内排序,另一个是分组间归并排序。对于分组内排序,只需要将每个分组的数据读入内存即可,这部分对应的时间复杂度为。对于归并排序,相应的时间代价应该是每一趟归并的开销之和,而每一趟归并都需要把所有数据都导入到内存中一次,这个时间代价为,因此我们只需要计算处进行归并的趟数即可。如图所示,归并的趟数可以表示为。综上所述:总的时间开销为:。
总结
以上就是关于外村模型下对数据进行排序问题的解决方案。下次我们会对算法进行分析,敬请期待~