海量数据排序:外部排序、位图排序、基数排序、桶排序

本文介绍了在处理海量数据时的排序算法,包括外部排序的基本流程,以及位图排序的概念和应用。文章详细讲解了基数排序的两种方法:MSD和LSD,并探讨了二进制快速排序。此外,还阐述了桶排序的思想,及其与外部排序和位图排序的关系。
摘要由CSDN通过智能技术生成

外部排序的概念

外排序(External sorting)是指能够处理极大量数据的排序算法。
外排序算法的核心思路在于把文件分块读到内存,在内存中对每块文件依次进行排序,最后合并排序后的各块数据,依次按顺序写回文件。外排序需要进行多次磁盘读写,因此执行效率往往低于内排序,时间主要花费于磁盘读写上。
外排序的算法步骤如下:
假设文件需要分成k块读入,需要从小到大进行排序。

  1. 依次读入每个文件块,在内存中对当前文件块进行排序(应用恰当的内排序算法)。此时,每块文件相当于一个由小到大排列的有序队列。
  2. 在内存中建立一个最小堆,读入每块文件的队列头。
  3. 弹出堆顶元素,如果元素来自第i块,则从第i块文件中补充一个元素到最小值堆。弹出的元素暂存至临时数组。
  4. 当临时数组存满时,将数组写至磁盘,并清空数组内容。
  5. 重复过程(3)、(4),直至所有文件块读取完毕。

需要注意的是,上面的分治-合并思想是普遍适用的。而如果我们已知数据的范围,就可以直接借用桶排序的思想,将某一个范围内的数据哈希到同一个小文件中,排好序。最后再按顺序,逐个将每个桶里的排序数据串起来,而不用再使用堆排序或归并排序等方式了。

位图排序

题目:一个最多包含n个正整数的文件,每个数都小于n,其中n=10^7,且所有正整数都不重复。求如何将这n个正整数升序排列。
约束:最多有1MB的内存空间可用,有充足的磁盘存储空间。

我们使用hash映射,将对应的正整数映射到位图集合中。即将正整数映射到bit集合中,每一个bit代表其映射的正整数是否存在

比如{1,2,3,5,8,13}使用下列集合表示:

0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0
  1. 我们可以创建有个10^7位(10^7/8/1024/1024≈1MB)的字符串来表示这个文件;
  2. 读取文件,对每一个正整数,将内存中bit[i] 位设置成1;
  3. 按位顺序读取字符串。当读取到bit[j] 为1时输出(int)j。

位图的实现

class Bitmap
{
public:
    Bitmap(): _size(0)
    {}
    //按照大小初始化bitmap
    //size>>5表示用多少个32位int
    Bitmap(size_t size) :_size(0)
    {
        _array.resize((size>>5)+1);
    }
    //将num对应的位置1
    void Set(size_t num)
    {
        size_t index = num >> 5;
        size_t i = num % 32;
        if (_array[index] & (1 << i))
        {
            return;
        }
      
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值