还是一道百度题目:有20个数组,每个数组有500个元素,并且是有序排列好的,现在在这20*500个数中找出排名前500的数 。将会用到下面的败者树方法,败者树详细请看下面。
败者树在外排序中用到,每加入一个数字时,调整树需要o(lgk),比较快。外排序过程主要分为两个阶段:(1)初始化各归并段写入硬盘,初识化的方法,可利用内排序方法还可以一种叫置换选择排序的方法(参考数据结构--李春葆)。
为什么需要败者树
外排序过程考虑时间代价时,主要考虑访问磁盘的次数。那么基于两路归并排序的缺点在哪里呢?主要是访问磁盘的次数太多了?请看下图:
假设初始化归并段有m个,则二路归并需要访问硬盘的次数为log2(m)。按照这个方法,那是不是我们只要增加k就可以减少次数呢?答案是肯定的。就是说是k路归并的话,访问硬盘次数就是logk(m)。但是这里边存在一个矛盾:如果增大k,归并的时候比较次数增加了。那我们只要找到一种可以增大k,然后比较次数又比较少的方法就行了,这就是多路归并---败者树。看下面推导:
这里边logk(m)表示读取次数等于(log2(m)/log2(k)&#