给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url

最新推荐文章于 2020-08-28 20:50:47 发布

rupert123456

最新推荐文章于 2020-08-28 20:50:47 发布

阅读量3.1k

点赞数

分类专栏：面试题库文章标签： url 存储

面试题库专栏收录该内容

9 篇文章 0 订阅

订阅专栏

可以估计每个文件的大小为50G×64=320G，远远大于内存限制的4G，不可能将其完全加载到内存中处理，考虑采取分而治之的方法。

第一步：遍历文件a，使用Hash函数将a文件中的url分别存储到1000个小文件中，这样每个小文件的大约为300M；遍历文件b，使用相同的Hash函数，将每个url存储到1000个小文件中。这样，所有可能相同的url都存在对应的小文件中。
第二步：求每对小文件中相同的url，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url

可以估计每个文件的大小为50G×64=320G，远远大于内存限制的4G，不可能将其完全加载到内存中处理，考虑采取分而治之的方法。第一步：遍历文件a，使用Hash函数将a文件中的url分别存储到1000个小文件中，这样每个小文件的大约为300M；遍历文件b，使用相同的Has
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。