内部排序总结及实例
前面介绍的8种排序算法(直接插入排序、折半插入排序、希尔排序、冒泡排序、快速排序、简单选择排序、堆排序、归并排序)属于建立在“比较”基础上的排序算法,通过决策树已经证明,任何基于比较进行的排序算法的时间复杂度不可能再优于O(n*logn)。后面2种不是建立在比较的基础上的,因此,可以达到线性运行时间。
排序方法 | 最好时间复杂度 | 平均时间复杂度 | 最坏时间复杂度 | 空间复杂度 | 是否稳定 |
直接插入排序 | O(n) | O(n*n) | O(n*n) | O(1) | 稳定 |
折半插入排序 |
|
|
|
|
|
希尔排序 | O(n) | 不定 | O(n*n) | O(1) | 不稳定 |
冒泡排序 | O(n) | O(n*n) | O(n*n) | O(1) | 稳定 |
快速排序 | O(n*logn) | O(n*logn) | O(n*n) | O(logn) | 不稳定 |
简单选择排序 | O(n*n) | O(n*n) | O(n*n) | O(1) | 不稳定 |
堆排序 | O(n*logn) | O(n*logn) | O(n*logn) | O(1) | 不稳定 |
归并排序 | O(n*logn) | O(n*logn) | O(n*logn) | O(n) | 稳定 |
计数排序 | O(n+k) | O(n+k) | O(n+k) | O(k) | 稳定 |
基数排序 | O(d(n+k)) | O(d(n+k)) | O(d(n+k)) | O(k) | 稳定 |
桶排序 | O(n) | O(n) | O(n) | 不定 | 取决于桶内 |
小结:
1、在基于比较的排序方法中,就平均性能而言,快速排序最佳;对于最一般的内部排序应用程序,选用的方法一般不是直接插入排序、希尔排序就是快速排序。
2、归并排序一般只用在小的或非常接近排好序的输入数据上,因为需要O(n)的辅助空间,因此其性能对于主存排序不如快速排序那么好,但是合并是外部排序的中心思想。
3、堆排序在排序元素较少时有点大材小用,待排序列元素较多时,堆排序还是很有效的。但比希尔排序慢,尽管它是一个带有明显紧凑内循环的O(n*logn)算法。
4、计数排序和基数排序效率极高,需要额外的辅助空间,如果d或k很大,其性能对于主存排序来说就不太好了;计数排序和基数排序最适合于n很大,而k和d很小的情况。
PS:
时间复杂度为O(nlogn):
快速排序、希尔排序、归并排序、堆排序 即:快些归堆
不稳定:
快速排序、希尔排序、(简单)选择排序、堆排序 即:快些选堆
举例:
1. 基本topK问题:从1百万个数中找出最大(或最小)的5个数
看到这个问题,很多同学的第一反应会是:排序。那么,选择哪种排序方法呢,有同学说:快排,将所有数排序后,再选出最大的5个。虽然快排确实能解决这个问题,但是需要对1百万个数排序,但我们仅仅需要其中的5个。那么,有更好的方法吗?选择类排序算法,最大的特点就是能在一轮排序后获得最终排序序列中位于指定位置的元素。比如,第一轮选择类排序,就能选出最大(或最小)的数。可见,只需进行5轮选择类排序即可达到题目要求。而使用快排,需要log(1百万)轮partion。
选择类排序,我们介绍了两种:简单选择排序和堆排序。那么,选哪个呢?当然是堆排序,时间效率更高。问题的答案显而易见了:
第一步:建大顶堆,建堆后,最大元素位于堆顶。
第二步:将堆顶元素与最后一个元素交换,调整堆顶。重复该过程四次。位于保存堆的数组倒数的五个数,即为最大的五个数。
我们通过一个例子,来说明TopK问题。从10,6,9,8,7,5中选出最大的两个元素的过程如下图:
(注:上面图解的最后一步应该是交换9和7)。
2. 有10个文件放在10台机器上,每个文件中有1百万个数。要求选出这1000万个数中最大的5个数。
看到这里,有的同学就傻眼了。把数都分开放了,怎么办?分析: 1.只要最大的5个数,这5个数一定是在每个文件中最大5个数合起来共50个数中。 2.先从每个文件中选出最大的5个数(堆排序),然后都传到一台机器上处理。问题变成,选出10个有序序列中最大的5个数。也就是有序序列的合并问题。 经过以上分析,我们找到了解决方法。 第一步,用“大顶堆”从10个文件中分别选出最大的5个,传到一台机器上; 第二步,将10个序列合并。可以设10个指针指向每个序列,每次通过9次比较选出最大的1个。共需要进行5轮,比较45次,即可选出最大的5个。
3. 有10个文件放在10台机器上,每个文件中有1百万个数。要求选出这1000万个数中最大的50个数。 第三道题目与第二道题目非常相似,区别仅在于从5个数变成了50个数。那有什么区别呢?第一步,与问题二完全相同,还是利用“大顶堆”进行。问题在于第二步,现在需要50个数,那就是450次比较。有没有更好的方法呢。当然,答案就是“败者树”。什么是败者树,为什么要用败者树呢?