编程珠玑:位图法排序&搜索

问题描述

输入:一个最多包含n个正整数的文件,每个数都小于n,其中n=107。如果在输入文件中有任何正数重复出现就是致命错误。没有其他数据与该正数相关联。

输出:按升序排列的输入正数的列表。

约束:最多有1MB的内存空间可用,有充足的磁盘存储空间可用。运行时间最多几分钟,运行时间为10秒就不需要进一步优化。

程序设计与实现概要:

应用位图或位向量表示集合。可用一个10位长的字符串来表示一个所有元素都小于10的简单的非负整数集合,例如,可以用如下字符串表示集合{1,2,4,5,8}:

0  1  1  0  1  1  0  0  1  0

代表集合中数值的位都置为1,其他左所有的位置为0.编程珠玑当中建议是建一个具有1000万个位的字符串来表示这个文件,那么这个文件的所占容量为10000000 bit=107bit,不到1MB的大小,其中,当且仅当整数i在文件中存在,第i为1,这个表示利用了该问题的三个在排序问题中不常见的属性:输入数据限制在相对较小的范围内;数据没有重复;而且对于每条记录而言,除了单一个整数外没有其他关联数据。

如给定表示文件中整数集合的位图数据结构,则可以分三个阶段来编写程序

第一阶段:将所有的位都置为0,从而将集合初始化为空。

第二阶段:通过读入文件中的每个整数来建立集合,将每个对应的位置都置为1。

第三阶段:检验每一位,如果该位为1,就输出对应的整数,有此产生有序的输出文件。

下面的C语言的实现和C++的实现代码

所申请的int数组如下所示:

字节位置=数据/32;(采用位运算即右移5位)

位位置=数据%32;(采用位运算即跟0X1F进行与操作)。

C语言:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
#include <stdio.h>
#define MAX 10000000
#define SHIFT 5          
#define MASK 0x1F
#define DIGITS 32
 
 
int a[1+MAX/DIGITS];
 
void set( int n)                                //将逻辑位置为n的二进制位置为1
{
     a[n>>SHIFT] |=(1<<(n&MASK));               //n>>SHIFT右移5位相当于除以32求算字节位置,n&MASK相当于对32取余即求位位置,
}                                               
 
void clear( int n)
{
     a[n>>SHIFT] &=(~(1<<(n&MASK)));           //将逻辑位置为n的二进制位置为0
}
 
int test( int n)
{
     return a[n>>SHIFT] & (1<<(n&MASK));        //测试逻辑位置为n的二进制位是否为1
}
 
int main( int argc, char *argv[])
{
     int i,n;
     for (i=1;i<=MAX;i++)
     {
         clear(i);
     }   
     while ( scanf ( "%d" ,&n)!=EOF)
     {
         set(n);
     }
     for (i=1;i<=MAX;i++)
     {
         if (test(i))
             printf ( "%d " ,i);
     }
     return 0;
}

C++(使用bitset)

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
#include <iostream>
#include<bitset>
 
using namespace std;
 
 
int main( int argc, char *argv[])
{
     const int max = 10000000;
     
     int n,i;
     bitset<max+1> bit;                     //初始默认所有二进制位为0
     
     while ( scanf ( "%d" ,&n)!=EOF)
     {
         bit.set(n,1);                   //将第n位置1              
     }   
     for (i=0;i<=max+1;i++)
     {
         if (bit[i]==1)
             printf ( "%d " ,i);
     }
     return 0;
}
扩展:
 
给40亿个不重复的unsigned int的整数,没有排过序,然后再给一个数,如果快速判断这个数是否在那40亿个数当中。(腾讯面试题)
 
用位图法:40亿unsigned int,则用位图表示的话需要大小为40亿个bit=4*10  9 bit=0.5*10  9 bytes 因此申请的内存只需要大小约为512MB左右,这样在内存每个bit代表一个unsigned int整数,并将每个bit初始化为0,然后将40亿个unsigned int的整数读入,每个unsigned int的整数对应bit设置为1,读入后,最后看所给定的数对应的bit是否为1,是1存在,否则不存在。

摘自:http://www.cnblogs.com/biyeymyhjob/archive/2012/08/14/2636933.html

对个别错别字进行了修正,排版略有变化。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值