面试题:一亿个数中选取TopN——python解决

面对10亿个数,为获取Top-1000,考虑到内存和计算复杂度限制,不宜直接排序。通过构建小顶堆,先取前1000个数初始化堆,然后依次与堆顶比较,小于堆顶则丢弃,大于则替换并调整堆。遍历完成后,堆中的即为Top-1000,算法复杂度为O(Nlog(k))。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目描述:对10亿个数,取TOP-1000 (有限的内存和计算复杂度)

解题思路:

           数据量过大,考虑内存和计算复杂度的问题,不能选取直接对10亿个数据进行排序,再选取top100的数。

采用构建堆的方法,再对剩下的数在现成的堆中进行比对,替换,直到遍历完所有数为止,找到Top100的堆,步骤如下:

  • 先取前N个数,构成小顶堆,即在内存中维护一个1000数的小顶堆
  • 然后对文件中读取数据,和堆顶比较:     if 比堆顶小,则丢弃     if 比堆顶大,替换根节点,并且调整堆,保持小顶堆的性质
  • 所有数据处理完,得到的即是Top-N,算法复杂度O(Nlog(k))

代码如下:

class TopN:
    # 父节点下标
    def parent(self, n):
        return int((n - 1) / 2)

    # 左节点下标
    def left(self, n):
        return 2 * n + 1

    # 右节点下标
    def right(self, n):
        return 2 * n + 2

    # 构建小顶堆,保证父节点小于左右子节点
    def buildHeap(self, n, data):
        for i in range(1, n):
            t = i
            # 调整堆,如果节点比父亲节点小,则交换
            while t != 0 and data[t] < data[self.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值