建堆解决TopK问题

本文探讨了如何利用建堆方法解决在海量数据中寻找最大或最小的K个元素的TopK问题。通过建立小堆寻找最大元素,或者建立大堆寻找最小元素,避免了将所有数据一次性加载到内存中的需求。在遍历数据过程中,只保留堆中最大的K个元素,不断更新堆结构。这种方法有效地节省了内存,适用于大数据场景。
摘要由CSDN通过智能技术生成

对于找海量的数据中最大(小)个数据的问题被称为TopK问题。
解决这个问题的方法有很多比如排序然后相应的取前K个数据,排序的算法有很多种,其中不乏时间复杂度低的,可问题很多排序算法都需要将所有数据同时加载到内存中去处理,海量数据加载到内存中这无疑是一个很废内存空间的操作,而建堆解决TopK问题就可以解决这个问题。
先将建堆操作的结论告诉大家:

  1. 要TopK最大的就建小堆
  2. 要TopK最小的就建大堆

为什么要反着来呢?
我们来讨论具体操作思路。拿TopK最大举例,要找K个最大数据就先建立一个能放K个数据的小堆,然后对于数据依次遍历数据进行以下循环:

  1. 拿遍历的当前数据和堆顶元素比较大小,如果比堆顶元素小就跳过当前数据。
  2. 如果比堆顶元素大,那就把堆顶元素赋值为这个数据,然后对堆的结构进行调整(向下调整)
  3. 调整之后去遍历下个数据此次循环结束

在这里插入图片描述

我们给堆中K个数据就起名TopK,如果每次遍历的过程中遍历的数据比TopK的最小的还小他就没有资格进堆,只有它比最小的堆顶元素大了他才能把堆顶元素取而代之,遍历的过程就是把小的一一淘汰了,最终遍历完所有数据之后堆中数据也就是所有数据中最大的K个了,大家照着上图去思考就能明白。
说完了TopK最大的,要通过建立小堆去完成,相应的TopK最小的,要建立大堆去完成就很好理解了。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

有裂痕的石头

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值