海量数据TopN问题

1. 在十万的数字中找出前100?

答:快排patition+二分,堆

2. 10亿的数字找前10万,空间给1亿?

答:(分治法加堆),时间复杂度klogk

3. 100亿数字找前10亿,空间1亿?

答:这个问题不是算法问题了,应该是在问工程上的实现,基本得靠切分到多台机器并行运算来解决,具体怎么做,看下那个64马找前四的问题。

总之,对于海量数据问题,都是用的“map-reduce”的思想来分而治之,分开局部处理,之后再汇总起来计算。

参考:

海量数据中的TOPK问题小结 - Excaliburer - 博客园

海量数据处理之top K问题 - 做个快乐的自己 - 博客园

海量数据中的TopK问题_眼映星辰的博客-CSDN博客_海量数据topk问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值