空间限制问题

最新推荐文章于 2023-02-23 09:51:30 发布

鯉鱼

最新推荐文章于 2023-02-23 09:51:30 发布

阅读量1.1k

点赞数 3

分类专栏：大数据

本文链接：https://blog.csdn.net/hahaEverybody/article/details/93317392

版权

10 篇文章 0 订阅

订阅专栏

有一个包含20亿个全是32位整数的大文件，在其中找到出现次数最多的数。
内存限制为2G

对于在很多数中找到出现次数最多的数这种问题，通常的做法是使用哈希表对出现的每一个数做词频统计，哈希表的key为对应的整数，value为该整数出现的次数。
就本题来说，假设一个数出现了20亿次，用32位的整数可以表示该次数不会产生溢出，所以哈希表的key为4B，value为4B，则哈希表的一条记录占用了8B。当哈希表中的记录个数为2亿个时，至少需要1.6GB的内存
如果20亿个数中不同的数超过2亿个，最极端的情况是20亿个数都不相同，那么所占内存为20亿*8B，很显然内存是不够用的。
解决办法是把包含20亿个数的小文件用哈希函数分成16个小文件，根据哈希函数的性质，同一种数是不可能被散列到不同的小文件中。假设哈希函数足够优秀，那么每个小文件中不同的数一定不会大于2亿种。
然后对每一个小文件用哈希表来统计每个数出现的次数，因此得到16个小文件中各自出现次数最多的数和相应的次数统计。
最后只要在16个数中选出出现次数最多的那个即可。
之所以分成16个小文件是与内存限制为2G对应的。

把一个大的集合通过哈希函数分配到多台机器中，或者分配到多个文件里，是处理大数据问题常用的方法，具体分配多少台机器，多少个文件根据内存的限制来确定。
比如：

有一个包含100亿个url的大文件，假设每个url占用64B，请找出其中所有重复的url。
解决办法：
- 通过哈希函数将大文件中的url哈希到若干台机器中或者单机上拆分成若干个小文件（哈希函数的性质决定了同一条url不会被分配到不同的机器或者不同的文件中），具体的数目根据资源的限制来选择。
- 然后对每一个小文件再利用哈希表遍历，找出重复的url。

32位无符号整数的范围是0~2³²=4294967295，现在有一个正好包含40亿个无符号整数的文件，所以在整个范围中必然有未出现过的数。可以使用最多1G的内存，怎么找到所有未出现过的数？
进阶： 内存限制为10MB，但是只用找到一个没出现的过的数即可。

如果40亿个数都不相同，利用哈希表存储则需要40亿*4B=160亿B=16GB的空间，不符合要求。
改进方法：

进阶问题：将0~2³² 这个范围平均分成64个区间，每个区间2²⁶个数，如果某一个区间上的数少于2²⁶那么肯定存在一个数没有出现。

第一次遍历40亿个数，先申请长度为64的整型数组count0~63]，count[i]表示区间i上的数有多少。当遍历到第i个数num时，num/2²⁶即为num所在的区间，则相应的将该区间计数加1，即count[num/2²⁶]++
第二次遍历count数组，若第i个位置上的值小于2²⁶，那么该区间肯定存在一个数没有出现，所需内存为64*4B
假设第i区间的数小于2²⁶，那么申请长度为2²⁶的bit数组，再次遍历40亿个数，此次只关注落在i区间上的数，即num/2²⁶等于i的数，将bit[num-2²⁶*i]置为1.
遍历bit数组，不为1的位置index即为没有出现的数2²⁶*i+index

某搜索公司一天的用户搜索词汇是海量的（百亿数据量），请设计一种求出每天热门TOP100词汇的可行方法。

32位无符号整数的范围是0~2³²=4294967295，现在有40亿个无符号整数，可以使用最多1GB的内存，找到所有出现了两次的数。

申请一个长度为2³²*2的bit类型的数组，约占1GB的空间，用两个位置表示一个数出现的词频。
遍历40亿个无符号数，如果初次遇到num，就把bit[num*2+1]和bit[num]置为01，第二次遇到num则置为10，第三次遇到则置为11，若以后再遇到，发现已经被置为11，就不再做任何设置。
遍历完成之后，再次遍历bit数组，如果发现bit[i*2+1]和bit[i]设置为10，那么i就是出现了两次的数。

32位无符号整数的范围是0~2³²=4294967295，现在有40亿个无符号整数，可以使用最多10MB的内存，怎么找到这40亿个整数的中位数。

长度为2M即2²¹个无符号整数占用空间为8MB，所以定义每个区间的整数个数为2²¹，那么区间数量为2³²/2²¹，向上取整为2148个区间。第0区间为0~2²¹-1，第1区间为2²¹~2²²-1，第i区间为2Mi~2M(i+1)-1
申请一个长度为2148的整型数组，记录该区间上数字的个数
通过累加每个区间上的数字个数，就可以找到40亿个数的中位数，即第20亿个。如果前k-1个区间上出现的数字个数为19.998亿，但是发现当加上第k个区间上的数字个数之后超过了20亿，说明中位数出现在第k区间上，并且是第k区间上的第0.002亿个数。
接下来申请一个长度为2MB的无符号整型数组，然后遍历40亿个数，此时只关心处在第k区间上的数num，然后将count[num-k*2M]++。
遍历完40亿个数之后，就得到了第k区间上的词频统计结果，最后只在第k区间上找到第0.002亿个数即可。

关注