大数据题目

最新推荐文章于 2024-08-24 18:53:20 发布

梨粥

最新推荐文章于 2024-08-24 18:53:20 发布

阅读量822

点赞数 1

分类专栏：算法与数据结构

本文链接：https://blog.csdn.net/qq_36408262/article/details/89600270

版权

通过位图和分段统计的方法解决大数据场景下的问题，如寻找未出现的数、重复的URL和中位数。利用位图节省空间，进行数字出现情况的标记；通过分段统计在内存限制下找出特定数字，例如在10MB内存下找到未出现的数。

摘要由CSDN通过智能技术生成

【题目】

32位无符号整数的范围是0~4,294,967,295，现在有一个正好包含40亿个无符号整数的文件，所以在整个范围中必然存在没出现过的数。可以使用最多1GB的内存，怎么找到所有未出现过的数？

对于这道题目可以使用位图。42亿的整数需要的存储空间为40亿* 4 Byte = 4 * 4 G = 16G，但如果使用位图只需要16G / 32 = 0.5G内存即可。位图如何使用呢？遍历40亿个整数，如果一个数出现，就把对应位置设置为1，入一个数是7000，就把bitMap[7000]设置为1。遍历完成后，再次遍历位图，如果碰到某一位上的数字为0，就说明这个数字不存在,入bitMap[8000] = 0，就说明8000这个数字不存在，遍历结束后，所有没出现的数字也都找到了。

如果数组过长，甚至于数组长度无法用整数来表示（源数据有几百亿条），可以将原本的长数组进行切片，将其作为二维数组来保存。最好将二维数组弄成一个正方形。这里可以给42亿开方。
【进阶】
内存限制为 10MB，但是只用找到一个没出现过的数即可

如果只有10MB内存，可以使用分段统计。首先10MB = 1千万Byte = 8千万Bit，即10MB可以统计8千万个数字；总共有42亿数字，42亿 / 8千万 = 53（向上取整后得到53），所以可以将42亿数字分为53份，一份大约占8千万Bit；使用这10MB内存分别对这53份进行词频统计。因为只有40亿个数字，所以当我们统计每一份上的数字个数时，肯