位图排序原理及C语言实现(源于《编程珠玑》)

在《编程珠玑》的第一章,就是相当的精彩,这个位图排序就是出自那里。书中讲到的位图排序非常的巧妙(时间和空间都时非常的节省),而这巧妙是来源于对实际问题和数据的透彻分析,然后选取了一种高效的解决方案 。结合网上的一些资料以及自己的程序实现来简单记录一下吧。
1.位图的理解
我 们都明白图形格式中位图储存方式,其实就是以象素为单位的小方块,一格一格的纵横累积起来. 每一个小方块代表一种颜色,当然,如果对于黑白的二色图来说更加简单,只需要一个bit位即可表示. 这和我们的数据在计算机中的存储格式是相似的,内存条的也像是一格一格的bit位纵横交错而成. 因为这样的启发,我们发现一个个bit位象列队一样排列着,顺序相当严谨,如果我们的数据能够通过一种转换方式(逻辑上)能有序的和bit位一一对应起来 的话,那么我们按照bit位的顺序把它输出来不就是排序的数据集合吗?
2.索引的概念
通 过上面的描述,我们很容易联想到一样东西-索引。索引对于我们数据库的使用无疑相当重要,以至于现在很多数据量巨大的单表查询的性能完全仰仗于它.它和位 图的相似性在于:如果我们把每一行数据看作一个单位的数据,那么索引可以看作是该数据通过一种转化方式映射到某个存储空间,如果数据的顺序和索引的顺序是 一致的话,那么当我们按序对该存储空间访问时,就得到了有序的数据集.当然很多情况下,索引都是数据的一部分,然而在Oracle中有函数索引的概念, 它就完全表达了这种转化方式和映射关系了.
3.排序的一种巧妙方法——位图排序
位图天生和排序分不开,因为它是最本质的有序载体.  问题如下:
输入:一个包含n个正整数的文件,每个正整数小于n,n等于10的7次方(一千万)。并且文件内的正整数没有重复和关联数据。
输出:输入整数的升序排列 
约束:限制在1M左右内存,充足的磁盘空间,要求在10s钟内完成排序
分析如下:假设整数占32位,1M内存可以存储大概250000个整数,第一个方法就是采用基于磁盘的合并排序算法,第二个办法就是将0-9999999切割成40 个区间,分40次扫描(10000000/250000),每次读入250000个在一个区间的整数,并在内存中使用快速排序。书中提出的第三个解决办法,是采用bitmap(或者称为bit vector)来表示所有数据集合(注意到条件,数据没有重复),这样就可以一次性将数据读入内存,减少了扫描次数。
联想: 抓住问题的意义,电话号码在本问题上的一个现实意义就是该电话号码在整个电话号码集合上的位子,更具有特征的是,电话号码本身就反应了这么一个位子信息. 如果我们设立1000万个bit位,每一位表示该位置上电话号码是否存在(设定1为存在,0-不存在),位号就是电话号码本身,那么我们遍历所有的位,输 出位号为1的电话号码,不就是排序的电话号码吗? 巧妙之处: 因为我们利用了数据本身的意义!
算法的伪代码如下:
阶段1:初始化一个空集合
     for i=[0,n)
           bit[i]=0;

阶段2:读入数据i,并设置bit[i]=1
    for each i in the input file
           bit[i]=1;
阶段3:输出排序的结果
   for i=[0,n)
          if bit[i]==1
              write i on the output file

算法的时间复杂度为O(N)

我们看到了位图排序的高效与精彩巧妙之处,对于我们的数据进行排序的时候,可不可以思考一下: 分析我们的数据特征很关键,任何问题可能都是从分析特征找突破口的 ,考虑一下我们的数据存不存在一种转化方法使得他能映射到这种数字关系上来.这里的无重复的大量数据使得我们使用位图排序将会使得效率大幅提高。
4.位图排序的代码实例(C语言实现)
此处仅通过产生的20个随机数(0~9999999)用位图排序的方法进行了排序。这里有两个点是应该注意的:
  4.1 这里最原始的位图排序不支持有相同数字出现的情况,多个相同数字的出现,排序后会忽略多个相同数字的存在在,只保留一个。其实,稍微修改以下程序,也时可 以实现兼容这种情况的,比如说,可以增加一个数组count[10000000]来对bitmap数组中值为1的个数进行计数即可。(当然这样会超出 1MB的内存空间,不过原题规定时无重复的数据,故时可以在1MB内存限制条件下实现的)
  4.2 是个题外话,我在产生测试用的随机数时,最开始我把srand随机数种子放在产生随机数myRand()函数中,则每次调用都会产生几乎同一个随机数。后 来才了解到,随机数种子应该放在调用myRand()的主函数中,这样才能产生随机数。(其实,也可能产生相同的数字,只是我在0~9999999范围内 产生20个随机数,它们重复的概率比较低的)另外,为了防止防止重复数据产生了,我确不知道,我也将排序后的数字个数打印出来,如果排序后数字个数比排序 前要少,则排序输入的数据中有重复数字。

 


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 《编程珠玑 续》是Peter Norvig在原作《编程珠玑》基础上的延续,旨在进一步探讨编程技巧和优化方法。本书通过大量实例和案例,帮助读者更好地理解和运用编程的精髓。 本书主要涵盖了以下几个方面: 首先,作者介绍了一些高效的算法和数据结构,以帮助读者更好地解决各类实际问题。例如,作者详细讲解了常用的排序算法和搜索算法,在实际应用中如何选择最合适的算法进行优化。 其次,本书还涉及了一些高级的编程技巧和思维模式。作者以实际案例为依据,深入讲解了如何进行代码重构、如何处理复杂的数据结构、如何进行并行计算等等。这些技巧和模式可以使读者的代码更加简洁、高效和可维护。 此外,本书还对一些热门的编程语言和框架进行了介绍和比较。作者通过对比分析,帮助读者选择最适合自己项目需求的编程语言和框架,并介绍了它们的一些优缺点和使用技巧。 最后,作者还分享了一些自己的编程心得和经验,并对未来的发展趋势进行了预测。他鼓励读者积极参与开源项目,不断学习和提升自己的编程水平。 总而言之,《编程珠玑 续》是一本帮助读者深入理解编程精髓和优化技巧的实用指南。它丰富了原作的内容,并引入了新的案例和技巧,对于专业程序员和对编程感兴趣的人都是一本值得阅读的书籍。通过学习本书,读者能够更好地提升自己的编程能力,解决实际问题,并更好地适应行业的不断变化和发展。 ### 回答2: 《编程珠玑 续》是一本继承《编程珠玑》精神的编程类图书,它深入探讨了更多关于编程算法的话题,帮助读者进一步提升编程技巧和解决问题的能力。 这本续集书籍首先延续了原版的思维方式和编程风格,鼓励读者通过实践和思考来掌握编程的本质。它从不同的角度和实际场景出发,提供了更多实用的编程技巧和解决问题的方法,使读者能够更加高效地编写代码。 《编程珠玑 续》的内容涵盖了多个领域,包括排序算法、字符串处理、数据结构、网络编程等。它介绍了一些经典的算法和数据结构,并通过大量的例子和实践题目帮助读者加深理解和掌握。 此外,《编程珠玑 续》还关注了一些系统设计和性能优化的问题,提供了一些实际应用的案例和经验分享。通过学习这些内容,读者可以更好地设计和构建可扩展、高性能的软件系统。 总的来说,《编程珠玑 续》是一本非常实用的编程类书籍,它以深入浅出的方式讲解了多个编程算法的关键概念,帮助读者在解决问题和编写代码时更具洞察力和技巧。无论是编程初学者还是有一定经验的开发工程师,都可以从中获得很多启发和收获。 ### 回答3: 《编程珠玑续》是由Jon Bentley所著的计算机编程经典著作《编程珠玑》的续篇。在这本续作中,作者进一步探讨了计算机科学和编程的一些重要问题和技巧。 《编程珠玑续》以问题为中心,通过讲解不同的编程问题和解决方案,培养读者的编程思维和解决问题的能力。书中的问题涉及各个领域,包括算法设计、数据结构、性能优化、并发编程等内容,内容丰富而实用。 这本书的编写风格类似于《编程珠玑》,采用了一种琐碎而有趣的方式来讲解问题,引导读者逐步分析和优化解决方案。通过这种方法,读者可以深入了解各种编程技巧和策略,从而提高自己的编程水平。 《编程珠玑续》还包含了许多实际案例和代码示例,读者可以通过实践来巩固所学的知识。这使得书籍的内容更加贴近实际编程应用,并能帮助读者更好地理解和运用所学的技巧。 总之,如果你对计算机科学和编程有浓厚的兴趣,并希望深入了解和掌握一些编程问题和技巧,那么《编程珠玑续》是一本非常值得阅读的书籍。它将帮助你提升编程能力,并成为你在实际编程中的得力助手。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值