归并排序 (merge sort) 是一类与插入排序、交换排序、选择排序不同的另一种排序方法。归并的含义是将两个或两个以上的有序表合并成一个新的有序表。归并排序有多路归并排序、两路归并排序 , 可用于内排序,也可以用于外排序。这里仅对内排序的两路归并方法进行讨论。
1.两路归并排序算法思路
①把 n 个记录看成 n 个长度为 l 的有序子表;
②进行两两归并使记录关键字有序,得到 n/2 个长度为 2 的有序子表;
③重复第②步直到所有记录归并成一个长度为 n 的有序表为止。
【例】 有一组关键字 {4,7,5,3,2,8,6,1},n=8, 将其按由小到大的顺序排序。 两路归并排序操作过程如图 9.12 所示,其中 l 为子表长度。
2.算法实现
此算法的实现不像图示那样简单,现分三步来讨论。首先从宏观上分析,首先让子表表长 L=1 进行处理;不断地使 L=2*L ,进行子表处理,直到 L>=n 为止,把这一过程写成一个主体框架函数 mergesort 。然后对于某确定的子表表长 L ,将 n 个记录分成若干组子表,两两归并,这里显然要循环若干次,把这一步写成一个函数 mergepass ,可由 mergesort 调用。最后再看每一组(一对)子表的归并,其原理是相同的,只是子表表长不同,换句话说,是子表的首记录号与尾记录号不同,把这个归并操作作为核心算法写成函数 merge ,由 mergepass 来调用。
3.具体算法
引子:这篇文章以前写过,最近复习排序算法,觉得以前的代码还可以改进,因此有了此文。
归并排序算法以O(NlogN)最坏情形运行时间运行,而所使用的比较次数几乎是最优的。
该算法中最基本的操作是合并两个已排序的表,这只需要线性的时间,但同时需要分配一个临时数组来暂存数据。
归并排序算法可以用递归的形式实现,形式简洁易懂。如果N=1,则只有一个元素需要排序,我们可以什么都不做;否则,递归地将前半部分数据和后半部分数据各自归并排序,然后合并这两个部分。
归并排序算法也可以用非递归的形式实现,稍微难理解一点。它刚好是递归分治算法的逆向思维形式,在使用递归分治算法时,程序员只需考虑将一个大问题分成若干个形式相同的小问题,和解的边界条件,具体如何解决这些小问题是由计算机自动完成的;而非递归形式要求程序员从最基本的情况出发,即从解决小问题出发,一步步扩展到大问题。
我这里两种形式都给出。
另外,很多人在写递归形式的归并排序算法时,临时数组是在MergeSort函数中分配的,这使得在任一时刻都可能有logN个临时数组处在活动期,如果数据较多,则开销很大,实用性很差。
我把临时数组设置在Merge函数中,避免了这个问题。
///
递归形式:
template <class T>
void MSort(T a[], int left, int right)
{
if (left < right)
{
int center = (left + right) / 2;
MSort(a, left, center);
MSort(a, center+1, right);
Merge(a, left, center+1, right+1);
}
}
template <class T>
void MergeSort(T a[], int n)
{
MSort(a, 0, n-1);
}
///
非递归形式:
算法介绍:先介绍三个变量beforeLen,afterLen和i的作用:
int beforeLen; //合并前序列的长度
int afterLen;//合并后序列的长度,合并后序列的长度是合并前的两倍
int i = 0;//开始合并时第一个序列的起始位置下标,每次都是从0开始
i,i+beforeLen,i+afterLen定义被合并的两个序列的边界。
算法的工作过程如下:
开始时,beforeLen被置为1,i被置为0。外部for循环的循环体每执行一次,都使beforeLen和afterLen加倍。内部的while循环执行序列的合并工作,它的循环体每执行一次,i都向前移动afterLen个位置。当n不是afterLen的倍数时,如果被合并序列的起始位置i,加上合并后序列的长度afterLen,超过输入数组的边界n,就结束内部循环;此时如果被合并序列的起始位置i,加上合并前序列的长度beforeLen,小于输入数组的边界n,还需要执行一次合并工作,把最后长度不足afterLen,但超过beforeLen的序列合并起来。这个工作由语句Merge(a, i, i+beforeLen, n);完成。
template <class T>
void MergeSort(T a[], int n)
{
int beforeLen; //合并前序列的长度
int afterLen = 1;//合并后序列的长度
for (beforeLen=1; afterLen<n; beforeLen=afterLen)
{
afterLen = beforeLen << 1; //合并后序列的长度是合并前的两倍
int i = 0;//开始合并时第一个序列的起始位置下标,每次都是从0开始
for ( ; i+afterLen<n; i+=afterLen)
Merge(a, i, i+beforeLen, i+afterLen);
if (i+beforeLen < n)
Merge(a, i, i+beforeLen, n);
}
}
///
上面两种算法都要用到下面的合并函数。
/*函数介绍:合并两个有序的子数组
输入:数组a[],下标left,center,元素个数len,a[left]~a[center-1]及a[center]~a[len-1]已经按非递减顺序排序。
输出:按非递减顺序排序的子数组a[left]~a[len-1]。
*/
template <class T>
void Merge(T a[], int left, int center, int len)
{
T *t = new T[len-left];//存放被合并后的元素
int i = left;
int j = center;
int k = 0;
while (i<center && j<len)
{
if (a[i] <= a[j])
t[k++] = a[i++];
else
t[k++] = a[j++];
}
while (i < center)
t[k++] = a[i++];
while (j < len)
t[k++] = a[j++];
//把t[]的元素复制回a[]
for (i=left,k=0; i<len; i++,k++)
a[i] = t[k];
delete []t;
}
3.算法分析
(1)稳定性
归并排序是一种稳定的排序。
(2)存储结构要求
可用顺序存储结构。也易于在链表上实现。
(3)时间复杂度
对长度为n的文件,需进行 趟二路归并,每趟归并的时间为O(n),故其时间复杂度无论是在最好情况下还是在最坏情况下均是O(nlgn)。
(4)空间复杂度
需要一个辅助向量来暂存两有序子文件归并的结果,故其辅助空间复杂度为O(n),显然它不是就地排序。
注意:
若用单链表做存储结构,很容易给出就地的归并排序。