代码
#include <stdio.h>
#define N 100
int a[N], left[N], right[N];
void merge(int start, int mid, int end)
{
int i, j, k;
int n1 = mid - start + 1;
int n2 = end - mid;
for (i = 0; i < n1; i++)
{
left[i] = a[start + i];
}
for (i = 0; i < n2; i++)
{
right[i] = a[mid + i + 1];
}
i = j = 0;
for (k = start; i < n1 && j < n2; k++)
{
if (left[i] < right[j])
{
a[k] = left[i];
i++;
}
else
{
a[k] = right[j];
j++;
}
}
if (i < n1)
{
for (; i < n1; i++)
{
a[k] = left[i];
k++;
}
}
if (j < n2)
{
for (; j < n2; j++)
{
a[k] = right[j];
k++;
}
}
}
void merge_sort(int start, int end)
{
int mid;
if (start < end)
{
mid = (start + end) / 2;
merge_sort(start, mid);
merge_sort(mid + 1, end);
merge(start, mid, end);
}
}
int main(void)
{
//freopen("E:\\input.txt", "r", stdin);
int n, i;
scanf("%d", &n);
for (i = 0; i < n; i++)
{
scanf("%d", &a[i]);
}
merge_sort(0, n - 1);
for (i = 0; i < n; i++)
{
printf("%d ", a[i]);
}
printf("\n");
return 0;
}
Input
8
5 2 4 7 1 3 2 6
Output
1 2 2 3 4 5 6 7
算法分析
图中S表示sort函数,M表示merge函数,整个控制流程沿虚线所示的方向调用和返回。由于sort函数递归调用了自己两次,所以各函数之间调用关系呈树状结构。画这个图只是为了更清楚地展现归并排序的过程,读者在理解递归函数时一定不要全部展开来看,而是要抓住Base Case和递推关系来理解。下面分析一下归并排序的时间复杂度。
首先分析merge函数的时间复杂度。在merge函数中演示了C99的新特性--可变长数组,当然也可以避免使用这一特性,比如把left和right都按最大长度LEN分配。不管用哪种办法,定义数组并分配存储空间的语句执行时间可以看作常数,而不管数组有多长,常数用Θ-notation记作Θ(1)。设子序列a[start..mid]的长度为n1,子序列[mid+1..end]的长度为n2,a[start..end]的总长度为n=n1+n2,则前两个for循环的执行时间是Θ(n1+n2),也就是Θ(n),后面三个for循环合在一起看,每走一次循环就会在最终的排序序列中确定一个元素,最终的排序序列共有n个元素,所以执行时间也是Θ(n)。两个Θ(n)再加上若干常数项,merge函数总的执行时间仍是Θ(n),其中n=end-start+1。
然后分析sort()函数的时间复杂度,当输入长度n=1,也就是start=end时,if条件不成立,执行时间为常数Θ(1),当输入长度n>1时:
总的执行时间 = 2 × 输入长度为n/2的sort函数执行时间 + merge函数的执行时间Θ(n)
设输入长度为n的sort函数执行时间为T(n),综上所述:
这是一个递推公式(Recurrence)。我们需要把把T(n)从等号右侧消去,写成n的函数。其实,符合一定条件的Recurrence展开有数学公式可以套。这里我们略去严格的数学证明,只是从直观上看一下这个递推公式的结果。当n=1时可以设T(1)=c1,当n>1时可以设T(n)=2T(n/2)+c2n,我们取c1和c2中较大的一个设为c,把原来的公式改为:
这样计算出的结果应该是T(n)的上界。下面我们把T(n/2)的项展开成2T(n/4)+cn/2(下图中的(c)),然后再把T(n/4)进一步展开,直到最后全部变成T(1)=c的项(下图中的(d)):
把图(d)中所有的项加起来就是总的执行时间。这是一个树状结构,每一层的和都是cn,共有lgn+1层,因此总的执行时间是cnlgn+cn,相比nlgn项来说,cn项可以忽略,因此T(n)的上界是Θ(nlgn)。
如果先前取c1和c2中较小的一个设为c,计算出的结果应该是T(n)的下界,然而推导过程一样,结果也是Θ(nlgn)。既然T(n)的上下界都是Θ(nlgn),显然T(n)就是Θ(nlgn)。
可见,归并排序是比插入排序更好的算法,虽然merge函数的步骤较多,引入了较大的常数、系数和低次项,但是对于较大的输入长度n,这些都不是主要因素,归并排序是Θ(nlgn),插入排序的平均情况是Θ(n2),这就决定了归并排序是更快的算法。
参考:
归并排序