常用的链接记录

海量数据的处理
海量数据处理
常见的方法有Hash法,位图法,Bloom-filter法、数据库优化法、倒排索引法、外排序法、Trie树、堆、双层桶法以及MapReduce法

分而治之/hash映射+hash统计+堆/快速/归并排序(先映射,然后统计,最后排序)
双层桶排序(求第K大,中位数,不重复或重复的数字):通过多次划分,逐步确定范围,最后在一个可以接受的范围内进行
Bloom filter(集合求交集、数据判重)/BitMap
Trie树/数据库/倒排索引
外排序
分布式处理之Hadoop/MapReduce

TopK问题(先映射,然后统计,最后排序)

热点ip,重叠词
采用trie树/hash_map等统计每个文件中出现的词以及相应的频率。
先hash取模分块,然后使用hashmap统计,采用桶排序取最前面

排序问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值