快速排序的性能和「划分」出的子数组的长度密切相关。直观地理解如果每次规模为 n的问题我们都划分成 1 和 n−1,每次递归的时候又向n-1的集合中递归,这种情况是最坏的,时间代价是 O(n2)。我们可以引入随机化来加速这个过程,它的时间代价的期望是 O(n),证明过程可以参考「《算法导论》9.2:期望为线性的选择算法」,代码如下:
void quicksort(vector<int>& nums, int left, int right){
if (left >= right)
return;
int base = rand() % (right-left+1) + left;
swap(nums[base],nums[left]);
int i = left, j = right;
while (i < j){
while (i < j && nums[j] >= nums[left]) j--;
while (i < j && nums[i] <= nums[left]) i++;
swap(nums[i],nums[j]);
}
swap(nums[left],nums[i]);
quicksort(nums, left, i-1);
quicksort(nums, i+1, right);
}
需要注意的是,这个时间复杂度只有在 随机数据 下才成立,而对于精心构造的数据则可能表现不佳。此时我们可以使用双指针的方法,这种方法能够较好地应对各种数据。
void quicksort(vector<int>& nums, int left, int right){
if (left >= right)
return;
int base = nums[left];
int i = left - 1, j = right + 1;
while (true) {
do i++; while (nums[i] < base);
do j--; while (nums[j] > base);
if (i >= j)
break;
swap(nums[i], nums[j]);
}
quicksort(nums, left, j);
quicksort(nums, j + 1, right);
}
核心区别在于两层while循环部分
注意在双指针方法中,最外层的while循环每循环一次,i和j都至少会加1,而且base对应的元素,在第一个循环中就被交换了。我建议大家使用双指针方法,真的非常精妙的实现快排的写法。
并且注意,在升序排列中,随机基数做法一定是先从右向左开始找,因为会存在基准数和哨兵节点的交换,如果从左到右开始找,那么如果找不到比基准数更大的元素,则会在 i == j
时跳出循环,此时可能 nums[j] == nums[i] > nums[left]
。也就是说,此时最后一步交换操作会把一个比基准数更大的元素交换至数组最左端,导致哨兵划分失败。举个例子,给定数组 [0, 0, 0, 0, 1]
,如果先“从左向右查找”,哨兵划分后数组为 [1, 0, 0, 0, 0]
,这个结果是不正确的。
而双指针的做法,i和j循环的先后顺序没有影响,你可以根据测试用例来改变顺序。