BitMap概述
本文介绍 BitMap 算法的应用背景,算法思想和相关实现细节。
概括而言,BitMap 主要用来解决海量数据中元素查询,去重、以及排序等问题。这里对海量数据场景的强调,似乎暗示了这个算法对空间的利用相当的精巧和经济,事实确实如此。
BitMap算法
本来数据序列的排序是一个平凡的任务,现有的多种排序算法,都有各自擅场能适应不同情形的具体要求。但我们考虑这样一个场景:有一台内存为 4 GB 的 PC,其硬盘中的一个存储了 30 亿个无符号整型数据文件,这些整数一行一个且无重复。现在需要我们对这个文件中的数据进行排序后输出。
简单计算不难得到,这个数据文件的大小为 \(4\cdot3\cdot10^9/2^{30}\) 约为 11.2 GB,显然将这个数据文件直接读入内存是办不到的。能否强行利用现有的内存 size 来存储这些数据呢?答案是可能的,此时 BitMap 算法就该 C 位亮相了。BitMap 的想法相当精妙,它对整型数据作了一种转化,使得这个办不到的存储成为可能。我们这里忽略不同语言的设定,假设一个 int 整数占 4 个字节,即32 bit,如果我们能用一个 bit 位来标示一个 int 整数,那么需要的存储空间将大大减少,估算一下可知,30亿个整数需要的内存空间为 \(3\cdot10^9/8/2^{20}\) 大概为 357.6 MB,这样,我们可以轻易将这 30 亿个 int 数放到内存中进行处理。
具体而言,BitMap 对数据的转化可简述如下:
一个整型 int 占 4 bytes,共32位,我们申请一个 int 长度为 N//32 + 1