从两个文件(各含50亿个url)中找出共同的url、不同的url

最新推荐文章于 2022-10-17 21:57:19 发布

tripleTu

最新推荐文章于 2022-10-17 21:57:19 发布

阅读量804

点赞数

问题：
给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

算法思路：
方法一、
可以估计每个文件的大小为5G*64=300G （50亿是5000000000，即5G），远大于4G。
所以不可能将其完全加载到内存中处理，考虑采取分而治之的方法。

遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为300M。
遍历文件b，采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)中。

这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中，不对应的小文件（比如a0 vs b99）不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
比如对于a0 vs b0，我们可以遍历a0，将其中的url存储到hash_map当中。然后遍历b0，如果url在hash_map中，则说明此url在a和b中同时存在，保存到文件中即可。
如果分成的小文件不均匀，导致有些小文件太大（比如大于2G），可以考虑将这些太大的小文件再按类似的方法分成小小文件即可。

原文链接：
http://blog.csdn.net/cnnumen/article/details/5781322

方法二、
如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

方法二也可以用来找出不同的url(注意会有一定的错误率)。

tripleTu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从两个文件(各含50亿个url)中找出共同的url、不同的url

问题：给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？算法思路：方法一、可以估计每个文件的大小为5G*64=300G （50亿是5000000000，即5G），远大于4G。所以不可能将其完全加载到内存中处理，考虑采取分而治之的方法。
复制链接

扫一扫