资源限制类算法-6

最新推荐文章于 2022-05-12 22:50:18 发布

梦江河

最新推荐文章于 2022-05-12 22:50:18 发布

阅读量126

点赞数

分类专栏：算法文章标签：算法

本文链接：https://blog.csdn.net/weixin_42002747/article/details/115171145

版权

算法专栏收录该内容

19 篇文章 0 订阅

订阅专栏

该博客探讨了在大规模URL数据中如何有效地进行去重和统计频率。通过使用hash技术将URL分散到不同的小文件或机器上，然后在每个小文件或机器上找出前100个最频繁的URL，最后利用小根堆算法合并这些结果，得出全局的前100个最高频URL。这种方法在处理海量数据时能保持高效性和准确性。

摘要由CSDN通过智能技术生成

在这里插入图片描述
找出重复的URL

机器hash或者文件hash，小文件里面的所有URL可以放到内存Set判重

Top100

理解成一个文件有100亿个URL，可能有重复，
找出出现频率前100的所有URL

也是hash到不同小文件或者hash到不同机器，
统计每个小文件的前100或者不同机器的前100，
利用小根堆找出总共的前100，
比如全部整数分成了3个小文件，
都找出了各自的前100，
先拿第一个小文件构建小根堆，然后其他小文件的前100分别与它比较