大数据处理算法一:BitMap算法

腾讯面试题:给20亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中并且所耗内存尽可能的少?
 解析:bitmap算法就好办多了
 所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又不是很多的情况。通常是用来判断某个数据存不存在的。
 例如,要判断一千万个人的状态,每个人只有两种状态:男人,女人,可以用0,1表示。那么就可以开一个int 数组,一个int有32个位,就可以表示32个人。操作的时候可以使用 位操作

一,申请512M的内存
一个bit位代表一个unsigned int值
读入20亿个数,设置相应的bit位
读入要查询的数,查看相应bit位是否为1,为1表示存在,为0表示不存在
二、使用位图法判断整形 数组是否存在重复
判断集合中存在重复是常见编程任务之一,当集合中数据量比较大时我们通常希望少进行几次扫描,这时双重循环法就不可取了。
位图法比较适合于这种情况,它的做法是按照集合中最大元素max创建一个长度为max+1的新 数组,然后再次扫描原数组,遇到几就给新数组的第几位置上1,如遇到 5就给新数组的第六个元素置1,这样下次再遇到5想置位时发现新数组的第六个元素已经是1了,这说明这次的数据肯定和以前的数据存在着重复。这种给新 数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。它的运算次数最坏的情况为2N。如果已知 数组的最大值即能事先给新数组定长的话效率还能提高一倍。
[java]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. java 代码实现  
  2.   
  3. import java.util.BitSet;  
  4. /** 
  5.  * 大数据处理算法一,bitmap算法 
  6.  * @author JYC506 
  7.  * 
  8.  */  
  9. public class BitMap {  
  10.   
  11.  byte[] tem;  
  12.   
  13.  public BitMap(int length) {  
  14.   this.tem = new byte[length];  
  15.  }  
  16.   
  17.  public void add(int num) {  
  18.   if (num < tem.length) {  
  19.    if (tem[num] != 1) {  
  20.     tem[num] = 1;  
  21.    }  
  22.   }  
  23.  }  
  24.   
  25.  public boolean contain(int num) {  
  26.   if (num < tem.length) {  
  27.    if (tem[num] == 1) {  
  28.     return true;  
  29.    }  
  30.   }  
  31.   return false;  
  32.  }  
  33.   
  34.  public static void main(String[] args) {  
  35.   /*运行前内存*/  
  36.   long beforeMemory = Runtime.getRuntime().totalMemory();  
  37.   long start1=System.currentTimeMillis();  
  38.   BitSet set = new BitSet(2000000000);  
  39.   for (int i = 0; i < 2000000000; i++) {  
  40.    /*假设898989这个数不在20亿个数里面*/  
  41.    if (i != 898989) {  
  42.     set.set(i, true);  
  43.    }  
  44.   }  
  45.   /*创建20亿个数后所占内存*/  
  46.   long afterMemory = Runtime.getRuntime().totalMemory();  
  47.   long end1=System.currentTimeMillis();  
  48.   System.out.println("总共内存使用:" + (afterMemory - beforeMemory) / 1024 / 1024 + "MB");  
  49.   System.out.println("存入内存耗时:"+(end1-start1)+"毫秒");  
  50.   long start2 = System.currentTimeMillis();  
  51.   boolean isExit1=set.get(898989);  
  52.   boolean isExit2=set.get(900000);  
  53.    
  54.   long end2 = System.currentTimeMillis();  
  55.   /*输出在20亿个数中判断898989是否包含在里面*/  
  56.   System.out.println(isExit1);  
  57.   System.out.println("20个亿中"+(isExit1?"包含":"不包含")+898989);  
  58.   System.out.println("20个亿中"+(isExit2?"包含":"不包含")+900000);  
  59.   System.out.println("查询用时:"+(end2 - start2)+"毫秒");  
  60.  }  
  61.   
  62. }  

运行结果


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值