资源限制类算法-6

该博客探讨了在大规模URL数据中如何有效地进行去重和统计频率。通过使用hash技术将URL分散到不同的小文件或机器上,然后在每个小文件或机器上找出前100个最频繁的URL,最后利用小根堆算法合并这些结果,得出全局的前100个最高频URL。这种方法在处理海量数据时能保持高效性和准确性。
摘要由CSDN通过智能技术生成

在这里插入图片描述
找出重复的URL

机器hash或者文件hash,小文件里面的所有URL可以放到内存Set判重

Top100

理解成一个文件有100亿个URL,可能有重复,
找出出现频率前100的所有URL

也是hash到不同小文件或者hash到不同机器,
统计每个小文件的前100或者不同机器的前100,
利用小根堆找出总共的前100,
比如全部整数分成了3个小文件,
都找出了各自的前100,
先拿第一个小文件构建小根堆,然后其他小文件的前100分别与它比较
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值