题目
输入n个整数,找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4。
解题思路
方法一:时间复杂度为O(n)的算法,只有当我们可以修改输入的数组时可用
我们可以基于Partition函数来解决这个问题。如果基于数组的第k个数字来调整,则使得比第k个数字小的所有数字都位于数组的左边,比第k个数字大的所有数字都位于数组的右边。这样调整之后,位于数组中左边的k个数字就是最小的k个数字(这k个数不一定是排序的)。
//基于Partition函数的解法
void GetLeastNumbers(int* input, int n,int *output,int k)
{
if (!input || k > n || !n || !k)
return;
int start = 0, end = n - 1;
int index = Partition(input, n, start, end);
while (index != k-1) //k小于8的时候可以替换为k-1
{
if (index > k-1)
index=Partition(input, n, start, index - 1);
if (index < k-1)
index=Partition(input, n, index + 1, end);
}
for (int i = 0; i < k; i++)
output[i] = input[i];
}
方法二:时间复杂度为O(nlogk)的算法,特别适合处理海量数据
我们可以先创建一个大小为k的数据容器来存储最小的k个数字,接下来我们每次从输入的n个整数中的n个整数中读入一个数。如果容器中已有的数字少于k个,则直接把这次读入的整数放入容器之中;如果容器已经有k个数字了,也就是容器满了,此时我们不能再插入新的数字而只能替换已有的数字。找出这已有的k个数中的最大值,然后拿这次待插入的整数和最大值进行比较。如果待插入的值比当前已有的最大值小,则用这个数替换当前已有的最大值;如果待插入的值比当前已有的最大值还要大,那么这个数不可能是最小的k个整数之一,于是我们可以抛弃这个整数。
因此当容器满了之后,我们要做3件事情:一是在k个整数中找到最大数;二是有可能在这个容器中删除最大数;三是有可能要插入一个新的数字。如果用一个二叉树来实现这个数据容器,那么我们在O(logk)时间内实现这三步操作。因此对于n个输入数字而言,总的时间效率就是O(nlogk)。
下面是基于STL中的multiset的代码:
//第二种解法
typedef multiset<int, greater<int>> intSet; //greater<int>为升序排列,less<int>,即按升序排序。
typedef multiset<int, greater<int>>::iterator setIterator; // 任何声明变量的语句前面加上typedef之后,原来是变量的都变成一种类型。不管这个声明中的标识符号出现在中间还是最后.
void GetLeastNumbers1(const vector<int>&data, intSet &leastNumbers, int k)
{
leastNumbers.clear();
if (k < 1 || data.size() < k)
return;
vector<int>::const_iterator iter = data.begin(); //迭代器是可以进行改变的,但是其指向的元素是不允许改变的。
for (; iter != data.end(); ++iter)
{
if (leastNumbers.size() < k)
leastNumbers.insert(*iter);
else
{
setIterator iterGreatest = leastNumbers.begin();
if (*iter < *(leastNumbers.begin()))
{
leastNumbers.erase(iterGreatest);
leastNumbers.insert(*iter);
}
}
}
}
解法比较
基于Partition函数的解法的平均时间复杂度为O(n),比第二种解法要快,但同时它也有明显的限制,比如会修改输入的数组。
第二种解法虽然慢一点,但它有明显的两个优点。一是没有修改输入的数据。二是该算法适合海量数据的输入。