面试题40. 最小的k个数
输入整数数组 arr ,找出其中最小的 k 个数。例如,输入4、5、1、6、2、7、3、8这8个数字,则最小的4个数字是1、2、3、4。
示例 1:
输入:arr = [3,2,1], k = 2
输出:[1,2] 或者 [2,1]
示例 2:
输入:arr = [0,1,2,1], k = 1
输出:[0]
解答:
这是一道简单题。
最简单的做法是先sort,再取前k个数字。代码略。
优化1:
O(n) partition
利用快排的思想,选定一个初始目标,一轮过后,观察pivot的坐标位置,如果超过k则在左边继续做简易快排,如果低于k 则在右边继续做简易快排,如果等于k,则说明左边刚好是需要的数。
缺点:对于大数据量的数据,会浪费极大的内存(需要同时处理大量的数据)
代码略
优化2:
二叉堆暂存法
利用二叉堆暂存K个数,后面的来了以后做一轮重新排列,然后取走头数字。
所以应该使用 最大二叉堆:每次数字进来,比较拿走头部最大值,剩下的就是当前的最小k个数。
1:构造二叉堆
class maxheap:
def __init__(self):
self.heap = []
def shift_up(self, x):
self.heap.append(x)
l = len(self.heap)
s = l - 1
while s > 0:
if self.heap[s] > self.heap[(s - 1) // 2]:
self.heap[s], self.heap[(s - 1) // 2] = self.heap[(s - 1) // 2], self.heap[s]
s = (s - 1) // 2
else:
break
def shift_down(self):
x = self.heap[0]
self.heap[0] = self.heap[-1]
self.heap.pop()
l = len(self.heap)
s = 0
while s <= (l - 2) / 2:
if 2 * s + 2 < l:
if self.heap[s] < self.heap[2 * s + 1] or self.heap[s] < self.heap[2 * s + 2]:
if self.heap[2 * s + 2] > self.heap[2 * s + 1]:
self.heap[s], self.heap[2 * s + 2], = self.heap[2 * s + 2], self.heap[s]
s = 2 * s + 2
else:
self.heap[s], self.heap[2 * s + 1], = self.heap[2 * s + 1], self.heap[s]
s = 2 * s + 1
else:
break
else:
if self.heap[s] < self.heap[2 * s + 1]:
self.heap[s], self.heap[2 * s + 1], = self.heap[2 * s + 1], self.heap[s]
s = 2 * s + 1
else:
break
1)初始化堆
2)shift_up表示新进数字进行层层比较选定正确的为准
3)shift_down表示去掉头后重排列
2 调用数据
1)k大于len直接返回
2)先行填充k个值
3)之后每次处理都是 先填充 shift_up 然后 剔除头 shift_down
4)返回最后的数组
class Solution:
def getLeastNumbers(self, arr, k: int):
if k >= len(arr):
return arr
myheap = maxheap()
for i in range(k):
myheap.shift_up(arr[i])
for i in range(k, len(arr)):
myheap.shift_up(arr[i])
myheap.shift_down()
return myheap.heap
TIPS:
1 此题可以扩展到大数据的处理方式,二叉堆的应用之一。
2 二叉堆设计后同样可以提供排序。shift_up shift_down轮流进行即可。