海量数据题目分析（转自网络）

最新推荐文章于 2024-03-29 00:09:25 发布

weixin_30908103

最新推荐文章于 2024-03-29 00:09:25 发布

阅读量73

点赞数

文章标签： c/c++

原文链接：http://www.cnblogs.com/jiangC/archive/2011/09/23/2769150.html

版权

给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL

对于这个题目，我们可以利用C语言的位数组来解决，建一个100亿的位数组，即，bit b[10000000000];//10个0，不用担心超过内存大小，我们可以算一下1*10的10次方bit,一共是大概1.25个G这样的内存，
然后我们按顺序读入数据A，每从a中获得一条url时，我们可以用url获得它的hash值（经典的散列函数很多），然后将它的hash值映射到这个位数组中，将b[hash值]=1，读完了a数组，这个位数组有50亿位已经被置为1了，然后我们读入b文件，每读入一条用同样的hash函数算，再映射到位数组中，如果那一位已经被置为1说明 b中的这条url和a中的一样就将它保存下来，读完 b数组所有的相同Url就都保存下来了，这个方法是线性的，希望楼主看看。

转载于:https://www.cnblogs.com/jiangC/archive/2011/09/23/2769150.html