大数据题目

【题目】

32位无符号整数的范围是0~4,294,967,295, 现在有一个正好包含40亿个无符号整数的文件, 所以在整个范围中必然存在没出现过的数。 可以使用最多1GB的内存, 怎么找到所有未出现过的数?

对于这道题目可以使用位图。42亿的整数需要的存储空间为40亿* 4 Byte = 4 * 4 G = 16G,但如果使用位图只需要16G / 32 = 0.5G内存即可。位图如何使用呢?遍历40亿个整数,如果一个数出现,就把对应位置设置为1,入一个数是7000,就把bitMap[7000]设置为1。遍历完成后,再次遍历位图,如果碰到某一位上的数字为0,就说明这个数字不存在,入bitMap[8000] = 0,就说明8000这个数字不存在,遍历结束后,所有没出现的数字也都找到了。

如果数组过长,甚至于数组长度无法用整数来表示(源数据有几百亿条),可以将原本的长数组进行切片,将其作为二维数组来保存。最好将二维数组弄成一个正方形。这里可以给42亿开方。
【进阶】
内存限制为 10MB, 但是只用找到一个没出现过的数即可

如果只有10MB内存,可以使用分段统计。首先10MB = 1千万Byte = 8千万Bit,即10MB可以统计8千万个数字;总共有42亿数字,42亿 / 8千万 = 53(向上取整后得到53),所以可以将42亿数字分为53份,一份大约占8千万Bit;使用这10MB内存分别对这53份进行词频统计。因为只有40亿个数字,所以当我们统计每一份上的数字个数时,肯

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值