外部排序的优化问题

首先明确下面几点:

外部排序所用的时间和归并的初始段数I(initnum)以及归并时的路数P(pathnum)有关,主要是因为排序的趟数:S=向上取整(log以P为底,I 的对数)

具体为什么与这两个有关,可以这么理解,由于一个文件所占的物理块数是一定的,在进行外部归并排序的时候要不断的将这些物理块调进调出,而归并排序时的路数越多或者初始段数越少,则排序的趟数就会越少,进而调进调出的次数就越少,具体读写次数=趟数S*2*物理块数+1(1次内部排序)*2*物理块数

由此可见,增大归并路数或者减少初始归并段数都可以减少归并排序的趟数,进而减少读写次数,再进而减少I/O时间,可以很好的优化外部排序;

1、增大归并路数是人为的因素去调整,即题中给你系统所要求一个程序同时可用的输入输出文件总数,你根据这个条件选择归并路数是多少,比如给你可用的输入输出文件总数是15,则为了尽可能减少趟数,可以选择14作为归并路数也即是14个输入缓冲区,剩下的1是输出缓冲区,然后在排序比较的时候采用败者树进行选择,得到最小或者最大的胜者;

2、为了减少归并段数,可以采用置换-选择排序进行构建生成初始归并段;

3、最后一步是利用最佳归并树(可以理解为P阶霍夫曼树思想)进行组织,每一层是一趟归并,层数即是趟数,需要注意的是,在段数不足以保证每一个非叶结点的度数是P(归并路数)的时候,要根据严格P叉数的性质(即度数为0的节点数N0=(P-1)*度数为P的节点数Np+1)进行补充,补充的节点数=P-余数-1,其中余数=(N0-1)/(P-1);

其实这里面要记忆的公式还挺多的,想了一下,主要理清楚下面这条线中的四个重点就行,公式什么的推导就行了:

减少排序趟数--->增大归并路数或减少归并段数--->增大归并路数的同时内部排序要采用败者树;为了减少归并段数,所得到的各个归并段中的元素个数可能不同--->用最佳归并树进行组织

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值