对于找海量的数据中最大(小)个数据的问题被称为TopK问题。
解决这个问题的方法有很多比如排序然后相应的取前K个数据,排序的算法有很多种,其中不乏时间复杂度低的,可问题很多排序算法都需要将所有数据同时加载到内存中去处理,海量数据加载到内存中这无疑是一个很废内存空间的操作,而建堆解决TopK问题就可以解决这个问题。
先将建堆操作的结论告诉大家:
- 要TopK最大的就建小堆
- 要TopK最小的就建大堆
为什么要反着来呢?
我们来讨论具体操作思路。拿TopK最大举例,要找K个最大数据就先建立一个能放K个数据的小堆,然后对于数据依次遍历数据进行以下循环:
- 拿遍历的当前数据和堆顶元素比较大小,如果比堆顶元素小就跳过当前数据。
- 如果比堆顶元素大,那就把堆顶元素赋值为这个数据,然后对堆的结构进行调整(向下调整)
- 调整之后去遍历下个数据此次循环结束
我们给堆中K个数据就起名TopK,如果每次遍历的过程中遍历的数据比TopK的最小的还小他就没有资格进堆,只有它比最小的堆顶元素大了他才能把堆顶元素取而代之,遍历的过程就是把小的一一淘汰了,最终遍历完所有数据之后堆中数据也就是所有数据中最大的K个了,大家照着上图去思考就能明白。
说完了TopK最大的,要通过建立小堆去完成,相应的TopK最小的,要建立大堆去完成就很好理解了。