Algorithms: Bitmap算法

基本概念

位图看名字像是一种数据结构,其实严格来说是解决问题的一种方式,用每一位代表一个数字,极大的减少了内存占用,位图算法在海量数据的处理中有较多的应用,比如海量数据查重、判断海量数据中个别元素是否存在等问题。

应用场景

参考链接[1]中的问题为例:判断一个int型数据是否存在于40亿个不重复且无序的数据中,要求在占用内存不超过2G
常规想法是将40亿个int数据存储下来,这样占用内存 41094/1024/1024/1024=14.9G 。2G内存显然放不下,有人可能会想到将内存中数据存储到磁盘中分段读取判断,这不失为一个解决办法,但是众所周知磁盘I/O速度很慢。
这里可以应用位图算法的思想来解决,用1位代表一个数,这样一个int可以代表32个数,占用空间降为 4109/8/1024/1024=476.8M=14.9G/32 。易知,一个int型数组中,原本一个int元素(4个字节)只能代表一个数,用bitmap算法后一个int元素可以代表32个数,占用内存降为原来的 1/32 。完全符合题目要求,可在2G内存中完成数据的查找。
具体操作上,如何将一个十进制数映射到二进制bitmap上呢?
假如要存储的数字为n,可以开辟一个大小为int arr[1+n/32]的数组。数组每个元素表示:
arr[0]:0~31
arr[1]:32~63
……
相当于将N个数按照32为单位进行分段(每个元素即代表一段)存储,确定数字m存储在哪个元素:m/32,确定数字m存储在相应元素的哪个位置:m%32。

具体实现中涉及很多的位运算,这些位运算操作在以前的嵌入式C语言编程中操作寄存器时经常使用,比如讲某位清零、置一、左移右移等操作。

jdk中有相关的api类图可供直接调用。

参考资料
1. http://blog.51cto.com/zengzhaozheng/1404108
2. http://blog.csdn.net/hguisu/article/details/7880288

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值