题目描述:对10亿个数,取TOP-1000 (有限的内存和计算复杂度)
解题思路:
数据量过大,考虑内存和计算复杂度的问题,不能选取直接对10亿个数据进行排序,再选取top100的数。
采用构建堆的方法,再对剩下的数在现成的堆中进行比对,替换,直到遍历完所有数为止,找到Top100的堆,步骤如下:
- 先取前N个数,构成小顶堆,即在内存中维护一个1000数的小顶堆
- 然后对文件中读取数据,和堆顶比较: if 比堆顶小,则丢弃 if 比堆顶大,替换根节点,并且调整堆,保持小顶堆的性质
- 所有数据处理完,得到的即是Top-N,算法复杂度O(Nlog(k))
代码如下:
class TopN:
# 父节点下标
def parent(self, n):
return int((n - 1) / 2)
# 左节点下标
def left(self, n):
return 2 * n + 1
# 右节点下标
def right(self, n):
return 2 * n + 2
# 构建小顶堆,保证父节点小于左右子节点
def buildHeap(self, n, data):
for i in range(1, n):
t = i
# 调整堆,如果节点比父亲节点小,则交换
while t != 0 and data[t] < data[self.