海量数据topK算法

背景:由于内存限制,长度为一亿的某类型的数组无法全部放入内存进行排序,进而无法取出前100的元素,多见于搜索排名,更恶劣的情况是这一亿条数据还分布在多台机器上

    原理与简化:遍历长度为N的数组的前K个元素构建小顶堆,对于剩余的N-K的元素:小于其根节点的过滤掉,大于根节点则替换之并heapify该小顶堆,时间复杂度近似为N*O(logK),因此只要实现一个定制版的heapify函数即可!

    关键代码如下


  1. /*
         * @param arr 某数组,不考虑根节点,构成一小顶堆,length为K
         * @param startIndex 被替换后的根节点,应为0
         */
        public void heapify4topK(int[] arr,int startIndex){
            int n=arr.length;
            int startValue=arr[startIndex];//要沉下去的数
            int leftSon=2*startIndex+1;
            int minIndex=0;
            while (leftSon<n){
                if (leftSon==n-1||arr[leftSon]<=arr[leftSon+1]){
                    minIndex=leftSon;
                }else if(arr[leftSon]>arr[leftSon+1]){
                    minIndex=leftSon+1;
                }
                int minSon = arr[minIndex];
                if(minSon>=startValue){
                    break;
                }
                arr[startIndex]=minSon;
                startIndex=minIndex;
                leftSon=2*startIndex+1;
            }
            arr[startIndex]=startValue;
        }

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值