编程珠玑开篇--磁盘文件排序问题

输入:

所输入的文件,至多包含n个正整数,每个正整数都小于n,题目中n = 10^7,如果输入时某个正整数重复出现俩次,就会产生致命的错误,这些整数,与其他任何数据都不相关.

输出:

以增序形式输出经过排序的整数列表

约束

至多只有1MB(包括程序本身)可用的主存,但是可以用的磁盘空间是充足的,运行时间至多几分钟,10秒针是最适宜的运行时间.

作者第一个方案使用基于磁盘的合并排序.将每个号码用32位整数表示,可以在1MB的空间里存储250000个号码,使用一个带有40个通道的程序,在第一个通道中将前250000的任意整数读入内存,并对它们进行排序,可以使用高效的快速排序,但是完成整个任务,我们要牺牲读文件40次的代价.最后作者引出了另外一种解决方案位图和位向量:

我们可以用一个20位的字符串可以表示小于20的非负数集合.例如,我们可以将集合{1,2,3,5,8,13}存储在下面字符串中:

集合中代表数字的各个位设置为1 ,而其他的位全部设置为0

     在上面问题中,我们使用一千万位的字符串表示该文件,当且仅当整数i在该文件中的时候,第i位才被设置为1,这种表示法使用了这个问题中的三中属性,输入的范围相对小一些,并且还不包括重复的数据,而且没有数据和单个整数以外的每一记录相关联

算法实现分三阶段

1 设置每个位为0

2 读取文件,将相应的位设置为1

3 检查每个位,当为1时,将整数写入

这些函数使用常量来设置,清除并测试位值

#define BITSPEREORD 32 // the type int contains 32 bits 
#define SHIFT  5 // pow(2,5)
#define MASK 0X1F //00011111
#define NUMBER 10000000
int bitBuffer[ 1 + NUMBER / BITSPEREORD ] ;


void clr( int i ) //set every bit 0 
{
   bitBuffer [ i >> SHIFT ] &= ~ ( 1 << ( i & MASK )) ;  
}
//i & MASK 相当于 i mod 32
void set ( int i ) //set the n bits 1  
{ 
     bitBuffer [ i >> SHIFT ] |=  ( 1 << ( i & MASK )) ;
}


int test( int i ) //read the sort number from bitBuffer 
{
  return bitBuffer [ i >> SHIFT ] & ( 1 << ( i & MASK )) ;
}

通过位运算实现的上面的排序算法如下:
int main () 
{
  int i ;
  for (  i = 0 ; i < NUMBER ; i ++ )
  {
     clr(i);
  }
  while(scanf("%d",&i) != EOF )
  {
     set( i );
  }
  for ( i = 0 ; i < NUMBER ;i ++ )
  {
     if (test(i))
   printf("%d/n",i);
  }
  return 0 ;
}
使用一个包含100万个不重复正整数的文件且每个正整数都小于1000万进行测试:下表报告了使用
系统命令行排序,C++和C的排序程序,位运算的排序成本

   
   
       系统排序C++/STLC/qsortC/位运算
总时间(秒)893812.610.7
计算时间(秒)79282.40.5
MB0.87041.25  

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值