所谓排序 ,就是整理文件中的记录,使之按照关键字递增(或递减)的顺序排列起来。它的确切含义如下:
输入: n 个记录 R 1 、 R 2 、 … R n ,其相应的关键字分别是 K 1 、 K 2 、 … K n 。
输出: R i1 、 R i2 、 … R in ,使得 K i1 ≤ K i2 ≤ … ≤ K in ,(或者 K i1 ≥ K i2 ≥ … ≥ K in )。
按照平均时间可以将排序分为以下 4 类 :
(1) 平方阶( O(n 2 ) )排序 一般称为简单排序,例如直接插入、直接选择和冒泡排序。
(2) 线性对数阶( O(n lgn )排序 如快速、堆和归并排序
(3) O(n 1+£ ) 阶排序 £ 是介于 0 和 1 之间的常数,即 0<£<1 ,如希尔排序
(4) 线性阶( O(n) )排序 如桶、箱和基数排序
简单排序中,直接插入排序最好,快速排序最快。当文件为正序时,直接插入排序和冒泡排序均最佳。
1. 影响排序效果的因素
因为不同的排序方法适应不同的应用环境和要求,所以选择合适的排序方法应综合考虑下列因素:
(1) 待排序的记录数目 n
(2) 记录的大小(规模)
(3) 关键字的结构及其初始状态
(4) 对稳定性的要求
在待排的文件中,若存在多个关键字相同的记录,经过排序后这些具有相同关键字的记录之间的相对次序保持不变,该排序方法是稳定的;否则称这种排序方法不稳定。
注意:排序算法的稳定性是针对所有输入实例而言的。依旧是在所有可能的输入实例中,只要有一个实例使得算法不满足稳定性要求,则该排序算法是不稳定的。
(5) 语言工具的条件
(6) 存储结构
(7) 时间和辅助空间复杂度等
2. 不同条件下排序方法的选择
(1) 若 n 较小(比如 n ≤ 50 ),可以直接采用直接插入或者直接选择排序。
当记录规模较小时,直接插入排序较好。否则因为直接选择移动的记录数少于直接插入,应选直接选择排序为宜。
(2) 若文件初始状态基本有序(指正序),则应选用直接插入排序、冒泡排序或随机的快速排序为宜。
(3) 若 n 较大,则应采用时间复杂度为( O(n lgn )的排序方法:快速排序、堆排序或归并排序。
快速排序被认为是目前基于比较的内部排序中最好的方法。当待排序的关键字随机分布时,开始排序的平均时间最短。
堆排序所需的辅助空间少于快速排序,并且不会出现快速排序可能出现的最坏情况。这两种排序都是不稳定的。
若要求排序稳定,则可选用归并排序。然而从单个记录起进行两两归并的排序算法并不值得提倡,通常可以将它和直接插入排序结合在一起使用。先利用直接插入排序求得较长的有序子文件,然后再两两归并。因为直接插入排序是稳定的,所以改进之后的归并排序仍然是稳定的。