海量数据题目分析(转自网络)

给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL

对于这个题目,我们可以利用C语言的位数组来解决,建一个100亿的位数组,即,bit b[10000000000];//10个0,不用担心超过内存大小,我们可以算一下1*10的10次方bit,一共是大概1.25个G这样的内存, 
然后我们按顺序读入数据A,每从a中获得一条url时,我们可以用url获得它的hash值(经典的散列函数很多),然后将它的hash值映射到这个位数组中,将b[hash值]=1,读完了a数组,这个位数组有50亿位已经被置为1了,然后我们读入b文件,每读入一条用同样的hash函数算,再映射到位数组中,如果那一位已经被置为1说明 b中的这条url和a中的一样 就将它保存下来,读完 b数组 所有的相同Url就都保存下来了,这个方法是线性的,希望楼主看看。

转载于:https://www.cnblogs.com/jiangC/archive/2011/09/23/2769150.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值