BitMap算法及实现

解决的问题

最近在面试中经常被问到海量数据的排序问题,例如:输入大量的数字需要进行排序,若全部保存下来需要20G的空间,显然直接保存输入并进行排序是不合理的,BitMap算法基于计数排序原理对海量数据进行排序。

BitMap算法原理

先来说说计数排序,计数排序为线性时间排序算法,采用类似哈希表的方式,统计数组的最大值与最小值,开辟最小值到最大值大小的空间,遍历数组,以数组中元素值为索引,在额外空间中保存元素出现的次数,再将额外空间中的记录反向填充至原数组进行排序。
由于输入海量数据,直接开辟空间保存记录不合理,因为整型变量占用内存较大,以有符号int型为例占用31位,而BitMap使用若干bit位标记对应元素出现与否或出现次数,大大减小额外空间的占用,假设待排序数组中不存在重复元素,对于100亿的输入数据,若以int标记数据是否存在,需要37G空间,若使用1bit位标记,只需要1.16G空间。

python代码实现

# BitMap
# python中整数默认为有符号整数,可用位31
class BitMap():
    # 初始化BitMap内存
    def __init__(self, Vmax):
        self.size = Vmax // 31
        self.bits = [0]*(self.size+1)
        
    # 记录数据
    def record(self, num):
        # 计算数据所在bitmap位置
        position = num // 31
        offset = num % 31
        self.bits[position] |= (1<<offset)
    
    # 数据检测
    def test(self, num):
        # 计算数据所在bitmap位置
        position = num // 31
        offset = num % 31
        if self.bits[position] & (1<<offset):
            return True
        return False

if __name__ == "__main__":
    # 待排序数组 最大取值即bitMap空间设置
    Vmax = 688
    nums = [0, 67, 1, 45, 187, 65, 58, 101, 33, 252, 688, 145, 254, 487]
    print('待排序数组:',nums)

    # 结果保存
    result = []
    # 构建BitMap实例
    Bit = BitMap(Vmax)
    for i in range(len(nums)):
        # print(nums[i])
        Bit.record(nums[i])
    
    for i in range(Vmax+1):
        if Bit.test(i):
            result.append(i)
    print('排序后数组:', result)
待排序数组: [0, 67, 1, 45, 187, 65, 58, 101, 33, 252, 688, 145, 254, 487]
排序后数组: [0, 1, 33, 45, 58, 65, 67, 101, 145, 187, 252, 254, 487, 688]
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值