什么才是好的数据结构 部分 from 陈宏线段树

<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } -->

对数据结构选择的进一步分析

累计扫描过程体现了一种认识和思维方式,以一维数组作为数据结构基础,这里是否有更好的做法,我们将作进一步分析。

通过求解问题对数据结构选择作的分析中,我们注意到在选择数据结构需要考虑的几个方面:

1 、数据结构要适应问题的状态描述。解决问题时需要对状态进行描述,在程序中,要涉及到状态的存储、转换等。选择的数据结构必需先适用于描述状态,并使对状态的各种操作能够明确地定义在数据结构上。在 Picture 问题中,涉及到算法的状态是关于一组“超元线段”的描述,目的是要确定该组超元线段的数目,我们选择了线性结构,采用计数扫描的方法,统计超元线段属于轮廓的数目。这种表示法直观、易于实现,可以说基本适用于描述状态 。但采用一维数组,效率并不高,一次扫描耗时较大。其中主要的原因是各组超元线段的扫描分别独立,后面的扫描并不能利用前面的结论。

2 数据结构应与所选择的算法相适应。数据结构是为算法服务的 ,其选择要充分考虑算法的各种操作,同时数据结构的选择也影响着算法的设计。我们有这样的认识和经历,如果算法是对一个队列进行堆排序,就应当选择能够迅速定位的数据结构,如一维数组等,而不应选择像链表这样定位耗时的数据结构,反之,如果要对一个链表进行排序,则基于链表结构的基数排序应当是首选对象。 Picture 问题的算法思想基于问题的离散化,需要对平面进行分割,记录分割点的坐标。通常,使用映射来记录分割点。采用数组形式,利用其下标与数组元素的自然对应,实现映射,直截了当。这样选择基本可以满足算法要求。

同时,在选择数据结构时,也要考虑其对算法的影响。数据结构对算法的影响主要在两方面:

  • 数据结构的存储能力。如果数据结构存储能力强、存储信息多,算法将会较好设计。反之对于过于简单的数据结构,可能就要设计一套比较复杂的算法了。在这一点上,经常体现时间与空间的矛盾,往往存储能力是与所使用的空间大小成正比的。

  • 定义在数据结构上的操作。“数据结构”一词之所以不同于“变量”,主要在于数据结构上定义了基本操作,这些操作都有较强的实际意义。这些操作就好比工具,有了好的工具,算法设计也会比较轻松。 Picture 问题中选择了线性结构,它定义的操作比较简单,因此无法很好地将不同组的超元线段统计联系起来。

3 、数据结构的选择同时要兼顾编程的方便。许多复杂的数据结构能够得到较好的效率,但编程复杂,不易实现且容易出错。在这种情况下,如果能够选择一种我们较为熟悉的又不会过多地降低程序效率的数据结构,倒不失为一种折中的办法。如 Picture 问题中的 Group_TYPE.Count 过程的 4 5 两步,要求出某个矩形边对应的映射编号。我们定义的映射仅仅是编号 坐标值,并不是坐标值 编号。如果再实现这一映射,势必增加编程难度。所以编程求精时,可以认为以整数而不是以顶点坐标对平面进行横向切割。这样映射关系很好建立,坐标值本身就是编号,减少了编程难度。如果进一步以顶点坐标作横向切割,当然会提高程序效率,但效果并不明显——扫描计数仍需要 O(N) 的时间,这是很昂贵的,所以进一步切割并不影响算法主要部分的效率,另一方面,编程难度却会大大提高,得不偿失。由此看出,在算法效率“大局已定”的情况下,有时也需要适当地牺牲程序效率来减少编程不必要的麻烦。

4 、灵活应用已有知识。我们对编程都积累了一定的经验,对以后的解题有很大帮助。一个“新问题”有时与“旧问题”有许多内在的联系,往往能够将新问题转化为所学过的知识,或者由所学过的知识得到启发,从而解决问题。所谓“新”数据结构的构造,有时可以是几种基本数据结构的有机结合,或者由基本数据结构得到启发而得到。做到“温故而知新”,是对算法设计者创新意识的要求。当然,对一个问题,要首先考虑现成的、经典的数据结构。如队列、栈、链表等等,其标准结构与标准运算已经有了“公论”,程序实现也经过了“千锤百炼”,效率已经很完美。如果找到一种可行的经典数据结构,那么算法实现一般来说就比较轻松。要做到这一点,要求我们有扎实的基础知识,对各种算法及数据结构了然于胸。在计数扫描过程中采用了经典的线性一维数组,是一个很自然的考虑方向,并且可以很容易上机实现,不足之处在于其效率较低。

 

poj 3349 别人的感想对于hash的感想,不过对数据结构也很好的解释,算是醍醐灌顶吧


数据结构者,“数据间关系+存储方式”也。

不同的数据结构在不同操作方面占有优势,这也是它们存在的价值。哈希表也如此,在某个操作方面提供其它数据结构所不能匹敌的优越性,这个操作就是“按值存取”。

其它普通数据结构如线性表、树、图,节点数据的值与存储位置之间的关系是随机的,要想实现按值存取,只能进行基于“比较”的查找,或多或少带有一定 的盲目性(对于二分查找这样的方式,每次比较结果还是有一定的指导意义的)。而哈希表提供直接的按值存取,你询问一个值的数据在哪里,它能直接给出答案, 是“定位”而不是“寻找”。

之所以能“按值取”,是因为当初的“按值存”。哈希表就是要在数据值和数据存储位置之间建立一个映射,即所谓的“哈希函数”。有此哈希函数作指导,则可实现“按值存、取”,因为在哈希函数的指导下,值本身就含着存储位置的信息,有点“加密解密”的意思。

由于数据域往往宽于地址域,所以通常哈希函数不能为简单的线性关系,这样就有可能造成不同值映射到同一个存储位置――所谓“冲突”,所以哈希还应该 提供解决冲突的方式,比较好的一种方式是“链表法”,将冲突的数据都链在一个节点后面,而STL里的vector数组简直就像是为这种用链表解决冲突的哈 希表量身定做的一样,使用起来十分方便。

有这样一类问题:在海量数据中查找是否有出现多于一次的数据?笨方法只能从头至尾逐一比对,复杂性为O(N*N)。聪明一点的方法,如果数据不是很 分散,可以用做记号的方法,用一个位数组(可用bool实现)记录各个位所代表的数据是否出现过,如果读入一个已经出现过的数据则说明它出现多于一次,用 int代替bool,还可以记录下每个数据出现的次数,在遍历一次便可得到出现最多次的数据,复杂度为O(N)。但是如果数据很分散,这种线性映射就不管 用了,因为内存会严重浪费,如果数据过于夸张,会造成很大BUFFER的申请,但是这种映射记录的思想还是可取的,这时就需要一个从很大的数据域向相对很 小的地址域映射的工具来辅助,自然就是“哈希”。

POJ3349就是利用哈希这个特点的一个典型应用。题目本身与存取无关,而只是要找出是否有数据出现过一次以上。就可以采取上述“标记”+“映射”的方法。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值