’快速排序‘ （quicksort）算法的探讨（1）--- 处理大量重复数据

最新推荐文章于 2021-03-29 11:17:45 发布

weixin_33829657

最新推荐文章于 2021-03-29 11:17:45 发布

阅读量543

点赞数

文章标签： python 数据结构与算法

原文链接：https://my.oschina.net/u/158589/blog/55580

版权

2019独角兽企业重金招聘Python工程师标准>>>

quicksort在序列的各个元素不相同时效率比较高, nlgn。

但是，如果序列的各个元素几乎都相同时，效率就低了，n^2。

以下是我对randomized quicksort的一个测试

./quicksort [size] [range] 表示 sort [size] elements of range [0 - range]

~/MyPro/Algorithms/sort $ ./quicksort 1024 10000000
start sorting ...
sorting finished!
====================================
Randomized Quicksort
Sorting 1024 elements
Time: 0s 468us
The result is right !
====================================

~/MyPro/Algorithms/sort $ ./quicksort 1024 1
start sorting ...
sorting finished!
====================================
Randomized Quicksort
Sorting 1024 elements
Time: 0s 15426us
The result is right !
====================================

可以看到，当元素几乎相同时（如第二个输入，元素只有0和1），排序效率明显很低。

怎么解决这个问题呢？quicksort的关键思想是divide-and-conquer，将原始序列分段（partition）从而让问题规模指数级下降，从而达到快速排序的效果。于是，我们对关键的partition这个方法进行微调。使得其效果如下。

【小于pivot的元素集合】【L 等于pivot的元素集合 R】【大于pivot的元素集合】

通过参数返回L和R。

pseudocode如下

partition(begin, end)

l = r = 0; pivot = a[begin];

for j <- begin+1 to end

if (a[j] == pivot)

exch(&a[j], &a[++r])

if (a[j] < pivot)

exch(&a[j], &a[++l])

exch(&a[j], &a[++r]

if (a[j] > pivot)

//nothing

return (l, r)

经过微调后，处理大量重复数据的效率大大提高（比处理不重复数据的效率高很多）；而处理几乎不重复数据的效率略有下降，大约30%左右（因为本质上，关键的partition比原始的partition要多做大约1倍的交换）。

结果如下：

~/MyPro/Algorithms/sort $ ./quicksort2 1024
start sorting ...
sorting finished!
====================================
Randomized Quicksort
Sorting 1024 elements
Time: 0s     707us
The result is right !
====================================
~/MyPro/Algorithms/sort $ ./quicksort2 1024 1
start sorting ...
sorting finished!
====================================
Randomized Quicksort
Sorting 1024 elements
Time: 0s     32us
The result is right !
====================================