topk 问题

问题描述

在海量的数据中找出最大(最小)的k个数据。

笔记

考虑使用堆。以找出最大的k个数据为例。

建立小顶堆。堆顶元素总是堆里面最小的。

首先从海量数据中拿出k个数据建立堆,调整好堆,此时堆顶元素就是堆里面最小的。

接下来,海量数据一个一个输入,每个数据与堆顶元素比较。

  • 如果比堆顶元素小,说明这个数据比整个堆的元素都要小,可以扔掉;
  • 如果比堆顶元素大,说明这个元素可以进入堆里。

最后堆里面的元素就是海量数据里最大的k个元素了。

代码中分别使用heap和priority_queue来实现了该功能。

代码

//
//  main.cpp
//  topk
//
//  Created by SteveWong on 8/4/16.
//  Copyright © 2016 SteveWong. All rights reserved.
//

#include <iostream>
#include <vector>
#include <queue>
using namespace std;

struct cmp
{
    bool operator () (int a, int b)
    {
        return a > b;
    }
};

int main(int argc, const char * argv[]) {
    // insert code here...
    std::cout << "Hello, World!\n";
    const int k = 10;
    const int nbigdata = 100;
    vector<int> bigdata;
    for (int i = 0; i < nbigdata; i++)
    {
        bigdata.push_back(i);
    }

    // 使用priority_queue
    priority_queue<int, vector<int>, greater<int>> q;
    for (int i = 0; i < k; i++)
    {
        q.push(bigdata[i]);
    }
    for (int i = k; i < nbigdata; i++)
    {
        if (bigdata[i] > q.top())
        {
            q.pop();
            q.push(bigdata[i]);
        }
    }

    // 使用heap
//    vector<int> minHeap;
//    for (int i = 0; i < k; i++)
//    {
//        minHeap.push_back(bigdata[i]);
//    }
//    make_heap(minHeap.begin(), minHeap.end(), cmp());
//    for (int i = k; i < nbigdata; i++)
//    {
//        if (bigdata[i] > minHeap[0])
//        {
//            pop_heap(minHeap.begin(), minHeap.end(), cmp());
//            minHeap.pop_back();
//            minHeap.push_back(bigdata[i]);
//            push_heap(minHeap.begin(), minHeap.end(), cmp());
//        }
//    }
    return 0;
}

参考

最后参考一下别人怎么做的。

topK问题

教你如何迅速秒杀掉:99%的海量数据处理面试题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值