topK问题是数据分析中常见的问题。
比如找出1000个数中,第5大的数,
或1000个数中,前5大的数。
topK问题,比较好的一种解法,就是用小顶堆来实现。
小顶堆(min-heap)有个重要的性质——每个结点的值均不大于其左右孩子结点的值,则堆顶元素即为整个堆的最小值。JDK中PriorityQueue实现了数据结构堆,通过指定comparator字段来表示小顶堆或大顶堆,默认为null,表示自然序(natural ordering)。
小顶堆解决Top K问题的思路:小顶堆维护当前扫描到的最大100个数,其后每一次的扫描到的元素,若大于堆顶,则入堆,然后删除堆顶;依此往复,直至扫描完所有元素。Java实现第K大整数代码如下:
private static int findKthInArray(int[] arr,int k) {
PriorityQueue<Integer> q=new PriorityQueue<Integer>();
for(int num:arr) {
if(k>q.size()||num>q.peek()) {
q.offer(num);
}
if(q.size()>k) {
q.poll();
}
}
return q.peek();
}
参考地址:
http://www.cnblogs.com/en-heng/p/6336625.html
https://blog.csdn.net/Hollake/article/details/92830579