如何从大量的URL中找出相同的URL

最新推荐文章于 2022-11-28 09:11:52 发布

W墨眉W

最新推荐文章于 2022-11-28 09:11:52 发布

阅读量1.7k

点赞数

分类专栏：算法设计与分析（海量数据）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangqsse/article/details/107518991

版权

算法设计与分析（海量数据）专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、Question

给定 a、b 两个文件，各存放 50 亿个 URL，每个 URL 各占 64B，内存限制是 4G。请找出 a、b 两个文件共同的 URL

2、分析

50亿 * 64B = 320GB （1GB=1000 MB=1000 000 KB=1000 000 000 B）

320GB的文件，无法直接加载到内存中进行处理。对于数据量太大无法一次加载到内存的题目，一般采用分治法。把大的文件拆分中多个小文件，然后单独处理每个小文件，最终再汇总每个计算结果。把320GB分成1000份，一份大概300MB。具体分多少份，根据内存大小来决定。分成1000份，具体怎么分？对于一个具体的url，要把它分到哪个文件，此处采用hash取模的方式，对每个url，使用hash函数求hash值，然后对1000求模，结果就是此url要保存到的文件序号。

比如www.baidu.com，假设计算url的hash值是1111，则模是111，所以把此url保存到文件111中。其他类推。

进行hash计算后，

A文件被分拆成1000份，记为a1，a2，。。。。a1000

B文件被分拆成1000份，记为b1，b2，。。。。b1000

则接下来需要知道：如果vi是a和b中共同包含的url，则vi一定同时在ai和bi中。因为都是采用相同的hash函数，且都是对1000求模。所以模值一定相同。

有个问题是：

如果许多url计算出的hash值一样，则会导致存入的文件过大，极端情况下可能导致A 文件的ai和B文件的bi的文件大小和大于4GB。导致还是无法一次性加载到内存中。此时可继续对文件进行拆分，知道满足要求。

如果不存在上述情况，则针对每个ai和bi文件。先把ai文件中的url都加载到内存，放入到一个hashset中，然后再遍历bi文件。如果hashset中包含则说明是共同的url。最终返回所有共同的url即可。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

W墨眉W CSDN认证博客专家 CSDN认证企业博客

码龄6年

106: 原创

5万+: 周排名

10万+: 总排名

10万+: 访问

: 等级

1701: 积分

40: 粉丝

71: 获赞

4: 评论

277: 收藏

私信

关注

分类专栏

最新评论

MySQL中having和where的区别及应用详解
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
Java中hashcode和equals详解
0基础深度学习: 谢谢，讲的通俗易懂
Java中Scanner中的方法
憨憨mzz: 大佬
JVM监控命令之——JINFO
ctotalk: 学习了
redis主从复制架构详解
雨夜清晨_: 主节点每次向从节点传播N个字节数据时，主节点的offset增加N；多个slave呢？通过info replication命令，主节点只显示自己的offset，在从节点中执行info命令，记录了自身和主节点的offset；那么到底是slave维护着主节点的offset还是主节点维护着每一个从节点的offset?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。