BitMap算法及实现
解决的问题
最近在面试中经常被问到海量数据的排序问题,例如:输入大量的数字需要进行排序,若全部保存下来需要20G的空间,显然直接保存输入并进行排序是不合理的,BitMap算法基于计数排序原理对海量数据进行排序。
BitMap算法原理
先来说说计数排序,计数排序为线性时间排序算法,采用类似哈希表的方式,统计数组的最大值与最小值,开辟最小值到最大值大小的空间,遍历数组,以数组中元素值为索引,在额外空间中保存元素出现的次数,再将额外空间中的记录反向填充至原数组进行排序。
由于输入海量数据,直接开辟空间保存记录不合理,因为整型变量占用内存较大,以有符号int型为例占用31位,而BitMap使用若干bit位标记对应元素出现与否或出现次数,大大减小额外空间的占用,假设待排序数组中不存在重复元素,对于100亿的输入数据,若以int标记数据是否存在,需要37G空间,若使用1bit位标记,只需要1.16G空间。
python代码实现
# BitMap
# python中整数默认为有符号整数,可用位31
class BitMap():
# 初始化BitMap内存
def __init__(self, Vmax):
self.size = Vmax // 31
self.bits = [0]*(self.size+1)
# 记录数据
def record(self, num):
# 计算数据所在bitmap位置
position = num // 31
offset = num % 31
self.bits[position] |= (1<<offset)
# 数据检测
def test(self, num):
# 计算数据所在bitmap位置
position = num // 31
offset = num % 31
if self.bits[position] & (1<<offset):
return True
return False
if __name__ == "__main__":
# 待排序数组 最大取值即bitMap空间设置
Vmax = 688
nums = [0, 67, 1, 45, 187, 65, 58, 101, 33, 252, 688, 145, 254, 487]
print('待排序数组:',nums)
# 结果保存
result = []
# 构建BitMap实例
Bit = BitMap(Vmax)
for i in range(len(nums)):
# print(nums[i])
Bit.record(nums[i])
for i in range(Vmax+1):
if Bit.test(i):
result.append(i)
print('排序后数组:', result)
待排序数组: [0, 67, 1, 45, 187, 65, 58, 101, 33, 252, 688, 145, 254, 487]
排序后数组: [0, 1, 33, 45, 58, 65, 67, 101, 145, 187, 252, 254, 487, 688]