秋招春招场景题总结

最新推荐文章于 2024-10-02 08:00:00 发布

qq592567042

最新推荐文章于 2024-10-02 08:00:00 发布

阅读量490

点赞数

文章标签： c++ java python sql

本文链接：https://blog.csdn.net/qq592567042/article/details/124118786

版权

本文介绍了在内存有限的情况下处理大规模数据的几种策略。包括使用分治法和位图法在2.5亿个整数中找出不重复的数，利用最小堆在海量数据中找出前K个最大或最小的元素，以及如何在大文件中找出相同的URL和高频词。这些方法通过文件划分、哈希映射和数据结构优化，有效解决了大数据场景下的计算和存储挑战。

摘要由CSDN通过智能技术生成

1.大数据面试题——如何在大量的数据中找出不重复的数

问题描述：

在2.5亿个整数中找出不重复的数，注意，内存不足以容纳2.5亿个整数。

分析解读：

方法一：分治法

采用hash的方法，把这2.5亿个数划分到更小的文件中，从而保证每个文件的大小不超过可用内存的大小。然后对于每个小文件而言，所有的数据可以一次性被加载到内存中，因此可以使用字典或set来找到每个小文件中不重复的数。当处理完所有的文件后就可以找出这2.5亿个整数中所有的不重复的数。

方法二：位图法

对于整数相关的算法的求解，位图法是一种非常实用的算法。如果可用的内存空间超过1GB就可以使用这种方法。具体思路：假设整数占用4B（如果占用8B，那么求解思路类似，只不过需要占用更大的内存），4B也就32位，可以表示的整数的个数为2^32.由于题目中只查找不重复的数，而不关心具体数字出现的次数，因此可以分别使用2bit来表示各个数字的状态：用00表示这个数字没有出现过，01表示出现过一次，10表示出现过多次，11暂不使用。

根据上面的逻辑，在遍历这2.5亿个整数的时候，如果这个整数对应的位图的位为00，那么修改为01，如果为01那么改为10，如果为10则保持不变。这样当所有数据遍历完成后，可以再遍历一遍位图，位图为01的数字就是没有重复的数字。
————————————————
版权声明：本文为CSDN博主「CircleYua」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/kingyuan666/article/details/84584017

2.给定一个数据（数据量海量 N），想找到前 K 个最大的或最小的元素。

eg：有10亿个Long型整数，存储在一个文件中，如果找出其中最大的10个？
最容易想到的方法是将数据全部排序，然后在排序后的集合中进行查找，最快的排序算法的时间复杂度一般为O（nlogn），如快速排序。每个Long类型占8个字节，10亿个数就要占用7GB+的存储空间，对于一些可用内存小于7GB的计算机而言，很显然是不能一次将全部数据读入内存进行排序的。其实即使内存能够满足要求（我机器内存都是8GB），该方法也并不高效，因为题目的目的是寻找出最大的10个数即可，而排序却是将所有的元素都排序了，做了很多的无用功。

第二种方法采用最小堆。首先读入前10个数来创建大小为10的最小堆，然后遍历后续的数字，并于堆顶（最小）数字进行比较。如果比最小的数小，则继续读取后续数字；如果比堆顶数字大，则替换堆顶元素并重新调整堆为最小堆。整个过程直至10亿个数全部遍历完为止。然后按照中序遍历的方式输出当前堆中的所有10个数字。这个方法使用的内存是可控的，只有10个数字所需的内存即可。
————————————————
版权声明：本文为CSDN博主「大树91」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/wandou9527/article/details/108376137

3.如何从大量的url中找到相同的url？

**题目描述：**给定a、b两个文件，各存放50亿个url，每个url各占64B，内存限制是4GB，请找出a、b两个文件共同的url。

**分析：**50亿个url，50亿64 = 5GB64=320GB，内存大小4GB，因此不可能一次性把所有的url都加载到内存中处理。需要用分治法把一个文件中的url按照某一特征分成多个文件，使得每个文件的内容都小于4GB，这样就可以把这个文件一次性读到内存中进行处理了。

主要思路：

（1）遍历文件a，对遍历到的url求hash(url)%500，根据计算结果把遍历到的url分别存储到a0,a1,…,a499(计算结果为i的url存储到文件ai中)，这样每个文件的大小约为600MB。当某一个文件中url的大小超过2GB的时候，可以按照类似的思路把这个文件继续分为更小的子文件；

（2）按照（1）的方法遍历文件b，把文件b中的url分别存储到文件b0,b1,…,b499中；

（3）通过上面的划分，与ai中相同的url一定在bi中。由于ai与bi中所有的url的大小不会超过4GB，因此可以把它们同时读入到内存中进行处理。具体思路为：遍历文件ai，把遍历到的url存入hash_set中，接着遍历文件bi的url，如果这个url在hash_set中存在，那么说明这个url是这两个文件共同的url，如果这个url在hash_set中存在，那么说明这个url是这两个url是这两个文件共同的url，可以把这个url保存到另外一个单独的文件夹中。当把文件a0~a499都遍历完成后，就找到了两个文件共同的url。

4. 如何从大量数据中找出高频词？

**题目描述：**有一个1GB大小的文件，文件里面每一行是一个词，每个词的大小不超过16B，内存大小限制是1MB，要求返回频数最高的100个词。

**分析：**由于文件大小为1GB，而内存大小只有1MB，因此不可能一次把所有的词读入到内存中处理，因此也需要采用分治的方法，把一个大的文件分解成多个小的子文件，从而保证每个文件的大小都小于1MB，进而可以直接被读取到内存中处理，具体的思路为：

（1）遍历文件，对遍历到的每一个词，执行如下Hash操作：hash(x)%2000，将结果为i的词存放到ai中，通过这个分解步骤，可以使每个子文件的大小大约为400KB左右，如果这个操作后某个文件的大小超过1MB了，那么可以采用相同的方法对这个文件继续分解，直到文件的大小小于1MB为止。

（2）统计每个文件中出现频率最高的100个词。遍历文件中的所有词，对于遍历到的词，如果在字典中不存在，就把这个词对应的值+1，遍历完后可以非常容易地找出出现频率最高的100个词。

（3）维护一个小顶堆来找出所有词中出现频率最高的100个，具体方法为：遍历第一个文件，把第一个文件中出现频率最高的100个词构建成一个小顶堆（如果第一个文件中词的个数小于100，那么可以继续遍历第2个文件，直到构建好有100个结点的小顶堆为止）。继续遍历，如果遍历到的词的出现次数大于堆顶上词的出现次数，那么可以用新遍历到的词替换堆顶的词，然后重新调整这个堆为小顶堆。当遍历完所有文件后，这个小顶堆中的词就是出现频率最高的100个词。这一步也可以采用类似归并排序的方法把所有文件中出现频率最高的100个词排序，最终找出出现频率最高的100个词。

引申：在海量数据中找出重复次数最多的一个

前面的算法是求解topk，这道题目是求解top1，将上面的小顶堆变成一个变量就可以了。

5. 如何找出访问百度最多的IP?

**题目描述：**现有海量日志数据存在一个超级大的文件中，该文件无法直接读入内存，要求从中提取某天访问BD次数最多的那个IP。

**分析：**先对文件遍历一遍，把一天访问BD的IP信息记录到一个单独的文件中。接下来用上一题的思路求解。需要将大文件分成小文件。以IPV4为例，一个IP地址占用32位，因此最多会有232=4G种取值情况。如果使用hash(IP)%1024值，那么把海量IP日志分别存储到1024个小文件中，这样，每个小文件最多包含4M个IP地址；如果使用2048个小文件，每个文件最多包含2M个IP地址。