hash算法

最新推荐文章于 2023-07-10 18:23:13 发布

skyandcode

最新推荐文章于 2023-07-10 18:23:13 发布

阅读量930

点赞数

分类专栏：数据结构和算法

数据结构和算法专栏收录该内容

12 篇文章 0 订阅

订阅专栏

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url

可以估计每个文件的大小为50G×64=320G，远远大于内存限制的4G，不可能将其完全加载到内存中处理，考虑采取分而治之的方法。

第一步：遍历文件a，使用Hash函数将a文件中的url分别存储到1000个小文件中，如（a0....a999）这样每个小文件的大约为300M；遍历文件b，使用相同的Hash函数，将每个url存储到1000个小文件中,如（b0....b999)。这样，所有可能相同的url都存在对应的小文件中（a0对应b0），不对应的文件不可能存在相同的url。
第二步：求每对小文件中相同的url，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。