算法导论笔记(5)
中位数和顺序统计学
基本概念
顺序统计量:在一个由n个元素组成的集合中,第i个顺序统计量是值该集合中第i小的元素。例如最小值是第1个顺序统计量,最大值是第n个顺序统计量。
中位数:一般来说,中位数是指它所在集合的“中间元素”,当n为奇数时,中位数是唯一的,出现位置为n/2;当n为偶数时候,存在两个中位数,位置分别为n/2(上中位数)和n/2+1(下中位数)。
选择问题描述
输入:一个包含n个(不同的)数的集合A和一个数i,1≤i≤n。
输出:元素x∈A,它恰大于A中其他的i-1个元素。最直接的办法就是采用一种排序算法先对集合A进行排序,然后输出第i个元素即可。可以采用前面讲到的归并排序、堆排序和快速排序,运行时间为O(nlgn)。接下来书中由浅入深的讲如何在线性时间内解决这个问题。
最大值和最小值
要在集合中选择最大值和最小值,可以通过两两元素比较,并记录最大值和最小值,n元素的集合需要比较n-1次,这样运行时间为O(n)。举个例子来说明,现在要求和集合A={32,12,23,67,45,78}的最大值,开始假设第一个元素最大,即max=1,然后从第二个元素开始向后比较,记录最大值的位置。
书中给出的求最小值的伪代码如下:
MINMUN(A)
min = A[1]
for i=1 to length(A)
do if min > A[i]
then min >= A[i]
return min
优化
同时找出集合的最大值和最小值
方法1:按照上面讲到的方法,分别独立的找出集合的最大值和最小值,各用n-1次比较,共有2n-2次比较。
方法2:可否将最大值和最小值结合在一起寻找呢?答案是可以的,在两两比较过程中同时记录最大值和最小值,这样最大需要3n/2次比较。现在的做法不是将每一个 输入元素与当前的最大值和最小值进行比较,而是成对的处理元素,先将一对输入元素进行比较,然后把较大者与当前最大值比较,较小者与当前最小者比较,因此每两个元素需要3次比较。初始设置最大值和最小值方法:如何n为奇数,就将最大值和最小值都设置为第一个元素的值,然后成对的处理后续的元素。如果n为偶数,那么先比较前面两个元素的值,较大的设置为最大值,较小的设置为最小值,然后成对处理后续的元素。这样做的目的保证能够成对的处理后续的元素。举个例子说明这个过程,假设现在要找出集合A={32,23,12,67,45,78,10,39,9,58}最大值和最小值
以期望线性时间做选择
利用快排中的RANDOMIZED-PARTITION, 它返回A中的第i小的元素
算法分析:平均情况下O(n),最坏情况O(n^2)
RANDOMIZED-SELECT(A, p, r, i)
if p=r
then return A[p]
q <- RANDOMIZED-PARTITION(A, p, r)
k <- q-p+1
if i=k
then return A[q]
elseif i<k
then return RANDOMIZED-SELECT(A, p, q-1, i)
else
return RANDOMIZED-SELECT(A, q+1, r, i-k)
#include <iostream>
using namespace std;
const int N=10;
int partition(int *, int,int);
void exchange(int &, int &);
int find_mid_num(int *A, int p, int r, int i){
if (p==r)
return A[p];
int q=partition(A, p, r);
int k=q-p+1;
if(k==i)
return A[q];
else if(k<i)
return find_mid_num(A, q+1,r,i-k);
else
return find_mid_num(A, p, q-1, i);
}
int partition(int *A, int p, int r){
int x=A[r];
int i=p-1;
for(int j=p;j<r;j++)
if(A[j]<=x)
{
i++;
exchange(A[j],A[i]);
}
exchange(A[i+1],A[r]);
return i+1;
}
void exchange(int &x, int &y)
{
int z=x;
x=y;
y=z;
}
int main()
{
int Array[10]={2,4,5,3,2,2,5,2,2,2};
int output=find_mid_num(Array, 0, N-1, 3);
cout << output << endl;
while(1);
return 0;
}
- 以最坏情况线性时间做选择
算法SELECT,最坏情况运行时间O(n)
执行步骤:
1) 将输入数组的n个元素划分为[n/5]组,每组5个元素,且至多只有一个组由剩下的n mod5个元素组成。
2) 寻找[n/5]个组中每一组的中位数。首先对每组中的元素进行插入排序,然后从排序过的序列中选出中位数。
3) 对第2步中找出的[n/5]个中位数,递归调用SELECT以找出其中位数x
4) 利用修改过的PARTITION过程,按中位数的中位数x对输入数组进行划分。设x是第k小的元素。
5) 如果i=k,则返回x。否则,如果i