quicksort在序列的各个元素不相同时效率比较高, nlgn。
但是,如果序列的各个元素几乎都相同时,效率就低了,n^2。
以下是我对randomized quicksort的一个测试
./quicksort [size] [range] 表示 sort [size] elements of range [0 - range]
~/MyPro/Algorithms/sort $ ./quicksort 1024 10000000
start sorting ...
sorting finished!
====================================
Randomized Quicksort
Sorting 1024 elements
Time: 0s 468us
The result is right !
====================================
~/MyPro/Algorithms/sort $ ./quicksort 1024 1
start sorting ...
sorting finished!
====================================
Randomized Quicksort
Sorting 1024 elements
Time: 0s 15426us
The result is right !
====================================
可以看到,当元素几乎相同时(如第二个输入,元素只有0和1),排序效率明显很低。
怎么解决这个问题呢?quicksort的关键思想是divide-and-conquer,将原始序列分段(partition)从而让问题规模指数级下降,从而达到快速排序的效果。于是,我们对关键的partition这个方法进行微调。使得其效果如下。
【小于pivot的元素集合】【L 等于pivot的元素集合 R】【大于pivot的元素集合】
通过参数返回L和R。
pseudocode如下
partition(begin, end)
l = r = 0; pivot = a[begin];
for j <- begin+1 to end
if (a[j] == pivot)
exch(&a[j], &a[++r])
if (a[j] < pivot)
exch(&a[j], &a[++l])
exch(&a[j], &a[++r]
if (a[j] > pivot)
//nothing
return (l, r)
经过微调后,处理大量重复数据的效率大大提高(比处理不重复数据的效率高很多);而处理几乎不重复数据的效率略有下降,大约30%左右(因为本质上,关键的partition比原始的partition要多做大约1倍的交换)。
结果如下:
~/MyPro/Algorithms/sort $ ./quicksort2 1024
start sorting ...
sorting finished!
====================================
Randomized Quicksort
Sorting 1024 elements
Time: 0s 707us
The result is right !
====================================
~/MyPro/Algorithms/sort $ ./quicksort2 1024 1
start sorting ...
sorting finished!
====================================
Randomized Quicksort
Sorting 1024 elements
Time: 0s 32us
The result is right !
====================================