原题
题目:
输入n个整数,找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4,。
Answer
思路分析
简单思路:先快排,再取数;
# -*- coding:utf-8 -*-
class Solution:
def GetLeastNumbers_Solution(self, tinput, k):
# write code here
if not tinput:
return []
if k > len(tinput):
return []
output = self.quick_sort(tinput)
return output[:k]
def quick_sort(self, input_list):
if len(input_list) <= 1:
return input_list
less = []
greater = []
base = input_list.pop()
for x in input_list:
if x > base:
greater.append(x)
else:
less.append(x)
return self.quick_sort(less) + [base] + self.quick_sort(greater)
Reference Answer
基于“先整体排序,然后取前k个元素”的思路引申:需要的是前k小的数,没必要舍近求远把整个数组都排好序。这样一来,时间复杂度可以降到O(nLogk)。利用最大堆算法,只不过在这里稍稍将最大堆算法变为最小堆算法,代码如下:
# -*- coding:utf-8 -*-
# 最大堆,O(nLogk)
def GetLeastNumbers_Solution(self, tinput, k):
if len(tinput) < k:
return []
res = []
for i in tinput:
heapq.heappush(res, -i) if len(res) < k else heapq.heappushpop(res, -i)
return sorted(list(map(lambda x: -x, res)))
Python中的 heapq
模块用来建立“堆”这种数据结构。
heapq.heappush(res, -i)
意为:向堆res
中添加一个元素-i
heapq.heappushpop(res, -i)
意为:将元素-i
与堆顶的元素比较。如果该元素值大于堆顶元素,则将该元素与堆顶元素替换。否则不改变堆元素。
堆排序
这道题明显是希望使用堆排序,这里也重新对堆排序进行一次盘点,
思路:
我们可以先创建一个大小为k的数据容器来存储最小的k个数字,接下来我们每次从输入的n个整数中的n个整数中读入一个数。如果容器中已有的数字少于k个,则直接把这次读入的整数放入容器之中;如果容器已经有k个数字了,也就是容器满了,此时我们不能再插入新的数字而只能替换已有的数字。找出这已有的k个数中的最大值,然后拿这次待插入的整数和最大值进行比较。如果待插入的值比当前已有的最大值小,则用这个数替换当前已有的最大值;如果待插入的值比当前已有的最大值还要大,那么这个数不可能是最小的k个整数之一,于是我们可以抛弃这个整数。
因此当容器满了之后,我们要做3件事情:
- 一是在k个整数中找到最大数;
- 二是有可能在这个容器中删除最大数;
- 三是有可能要插入一个新的数字。
如果用一个二叉树来实现这个数据容器,那么我们在O(logk)时间内实现这三步操作。因此对于n个输入数字而言,总的时间效率就是O(nlogk)。
C++ Version:
class Solution {
public:
vector<int> GetLeastNumbers_Solution(vector<int> input, int k) {
vector<int> result;
int length = input.size();
if(length <= 0 || k <= 0 || k > length){
return result;
}
for(int i = 0; i < input.size(); i++){
if(result.size() < k){
result.push_back(input[i]);
}
else{
for(int j = k / 2; j >= 0; j--){
HeadAdjust(result, j, k);
}
for(int j = k - 1; j > 0; j--){
swap(result[0], result[j]);
HeadAdjust(result, 0, j);
}
if(result[k-1] > input[i]){
result[k-1] = input[i];
}
}
}
return result;
}
private:
void HeadAdjust(vector<int> &input, int parent, int length){
int temp = input[parent];
int child = 2 * parent + 1;
while(child < length){
if(child + 1 < length && input[child] < input[child+1]){
child++;
}
if(temp >= input[child]){
break;
}
input[parent] = input[child];
parent = child;
child = 2 * parent + 1;
}
input[parent] = temp;
}
};
对于上述代码,我们还可以进一步优化,不是每次循环都需要重新排序的,只有在更新了容器的数据之后,才需要重新排序。
class Solution {
public:
vector<int> GetLeastNumbers_Solution(vector<int> input, int k) {
vector<int> result;
int length = input.size();
bool change = true;
if(length <= 0 || k <= 0 || k > length){
return result;
}
for(int i = 0; i < input.size(); i++){
if(result.size() < k){
result.push_back(input[i]);
}
else{
if(change == true){
for(int j = k / 2; j >= 0; j--){
HeadAdjust(result, j, k);
}
for(int j = k - 1; j > 0; j--){
swap(result[0], result[j]);
HeadAdjust(result, 0, j);
}
change = false;
}
if(result[k-1] > input[i]){
result[k-1] = input[i];
change = true;
}
}
}
return result;
}
private:
void HeadAdjust(vector<int> &input, int parent, int length){
int temp = input[parent];
int child = 2 * parent + 1;
while(child < length){
if(child + 1 < length && input[child] < input[child+1]){
child++;
}
if(temp >= input[child]){
break;
}
input[parent] = input[child];
parent = child;
child = 2 * parent + 1;
}
input[parent] = temp;
}
};
Python Version:
# -*- coding:utf-8 -*-
class Solution:
def HeadAdjust(self, input_list, parent, length):
temp = input_list[parent]
child = 2 * parent + 1
while child < length:
if child + 1 < length and input_list[child] < input_list[child+1]:
child += 1
if temp >= input_list[child]:
break
input_list[parent] = input_list[child]
parent = child
child = 2 * parent + 1
input_list[parent] = temp
def GetLeastNumbers_Solution(self, tinput, k):
# write code here
res = []
length = len(tinput)
change = True
if length <= 0 or k <= 0 or k > length:
return res
res = tinput[:k]
for i in range(k, length+1):
if change == True:
for j in range(0, k//2)[::-1]:
self.HeadAdjust(res, j, k)
for j in range(1, k)[::-1]:
res[0], res[j] = res[j], res[0]
self.HeadAdjust(res, 0, j)
change = False
if i != length and res[k-1] > tinput[i]:
res[k-1] = tinput[i]
change = True
return res
代码解释:
- 其中的
for i in range(k, length+1)
,之所以在 length 后加一的原因是因为当 i 走到 length-1 之后完成了if i != length and res[k-1] > tinput[i]
对比,需要重新再次进行一次堆排序,而此时进入下一个循环时:i == length
,因此在 i 进行循环时的范围为:for i in range(k, length+1)
; for j in range(0, k//2+1)[::-1]
之所以进行加 1 的原因是,j
需要取到k//2
,因此后面加 1,对应 C++ 代码为:for(int j = k / 2; j >= 0; j--)
。
Note:
- 关于堆排序可以参考总结:排序算法(6)–堆排序
- 切记,python 中的
if
表达式判定时是从左到右有顺序的,自己在做这道题的时候,进行判定if i != length and res[k-1] > tinput[i]:
时候,写反了顺序,写成了if res[k-1] > tinput[i] and i != length :
,结果一直报错,正是错在当按照错误方式书写代码的时候,对i = length
也进行了输入判定,造成列表溢出;而反过来正确写法,当判定到i = length
时候,自己不合符条件就跳出了,不会进行判定if res[k-1] > tinput[i]
,这样的书写方式才是正确的。