面试-海量题集-笔记

最新推荐文章于 2020-12-05 15:53:27 发布

Hou_Rj

最新推荐文章于 2020-12-05 15:53:27 发布

阅读量1.6k

点赞数

分类专栏：算法文章标签：面试算法 query 磁盘存储 hashmap

本文链接：https://blog.csdn.net/sunjerdege/article/details/6861672

版权

http://hi.baidu.com/mianshiti/blog/item/f6ac8fef7e47502862d09fbf.html

http://hi.baidu.com/clive_studio/blog/item/a641318ee04e00f0513d9294.html

http://weibo.com/julyweibo

2^10 = 1K; 2^20= 1M; 2^30 = 1G; 2^32=4G

K: 千； M：百万； G：十亿； T：万亿

1. 给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？

l 笨方法，就是外部排序，然后归并

l 1. Hash A文件成内存大小的1000个小块文件，每个文件约300M；

2. 然后同样的方式Hash B 文件，得到A，B对应的1000个小文件

3. 对每一对小文件，利用hash_set遍历找到共同的URL

l 如果允许错误率，Bloom Filter（广泛应用于URL过滤、查重），1G约为10亿，4G约为40亿B，也就是320亿bit。

1) 从海量日志数据，提取出某日访问百度次数最多的那个 IP？

IP地址最多有2^32=4G种取值可能，所以不能完全加载到内存中。可以考虑分而治之的策略

l 按照IP地址的hash(IP)%1024值（IP地址的特点，也可以自然分段），将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。

l 对于每个小文件，可以构建一个IP作为key，出现次数作为value的hash_map，并记录当前出现次数最多的1个IP地址。

l 有了1024个小文件中的出现次数最多的IP，我们就可以轻松得到总体上出现次数最多的IP。

2) 在排序数组中，找出给定数字的出现次数？

1) 穷举法

2) 二分查找

3) 已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。

8位最多99 999 999，大概需要99m个bit，大概10几m字节的内存即可。（可以理解为从0-99 999 999的数字，每个数字对应一个Bit位，所以只需要99M个Bit==1.2MBytes，这样，就用了小小的1.2M左右的内存表示了所有的8位数的电话）

4) 2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

l 将bit-map扩展一下，用2bit表示一个数即可，0表示未出现，1表示出现一次，2表示出现2次及以上

l 有点像鸽巢原理，整数个数为2^32,也就是，我们可以将这2^32个数，划分为2^8个区域(比如用单个文件代表一个区域)，然后将数据分离到不同的区域，然后不同的区域在利用bitmap就可以直接解决了

5) 100w个数中找最大的前100个数（最大的K个数）

l 维护一个100个元素大小的最小堆，复杂度O(100W * lg100)

l 如果数的范围不大，可以用一个计数数组，存放每一个的出现个数，复杂度：N

如果取值范围很大[Xmin, Xmax]，可以分治，将其分成M块，则每块的范围是[Xmin, Xmin+d], [Xmin+d, Xmin+2d],……，统计每块的个数，可以得出第K大所在的块，然后在对该块处理.O(n+100W*lg100)

l 快排，每次分割之后只考虑大的一部分，如果不够的话，排序选择

l 局部淘汰，思想跟堆一样，不过，用给一个100的数组存放，记录最小值，如果比数组最小的大，就覆盖最小值，如果小就丢掉。O(100W*100)

6) 维持中位数的方法？

双堆：令数组L的中位数为m，用一个最大堆存储数组L中不大于m的元素，用一个最小堆存储数组L中不小于m的元素，其中这两个堆均不包含中位数m。每次往数组L插入新元素x时，若x<m，则将其插入最大堆（因为最大堆的最大值不大于m），否则插入最小堆（最小堆的最小值不小于m）。若插入新元素后导致m不再是中位数（即两个堆的元素数目相差2个或2个以上），则将当前的中位数m插入到元素数量较少的那个堆中，然后令元素数量较多的那个堆的堆顶元素为新的中位数，并将该堆顶元素从堆中删除。

7) 5亿个int找它们的中位数。

1) 外排，然后取第2.5亿+1个数（多路归并）

2) 分治：将int划分为2^16个区域，然后读取数据统计落到各个区域里的数的个数，之后我们根据统计结果就可以判断中位数落到那个区域，同时知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数就可以了。

8) 现在有一个0-30000的随机数生成器。请根据这个随机数生成器，设计一个抽奖范围是0-350000彩票中奖号码列表，其中要包含20000个中奖号码。

这个题刚好和上面两个思想相反，一个0到3万的随机数生成器要生成一个0到35万的随机数。那么我们完全可以将0-35万的区间分成35/3=12个区间，然后每个区间的长度都小于等于3万，这样我们就可以用题目给的随机数生成器来生成了，然后再加上该区间的基数。那么要每个区间生成多少个随机数呢？计算公式就是：区间长度*随机数密度，在本题目中就是30000*（20000/350000）。最后要注意一点，该题目是有隐含条件的：彩票，这意味着你生成的随机数里面不能有重复，这也是我为什么用双层桶划分思想的另外一个原因。

9) 有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序。

1. 用Hash把文件重排，让相同query一定会在同一个文件，同时进行计数，然后排序，最后归并。

2. 如果query重复的比较多，可以一次性装入内存，可以用trie树来统计每个query的频率，然后再排序

10) 有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。

l 将其hash到2000个文件中，每个文件差不多是500k（如果大于1M，继续hash）

l 利用trie树或者hash_map统计每一个文件的词的频度

l 维护小顶堆，遍历

11) 1000万个记录（这些查询串的重复度比较高，长度为1-255个字节，总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

Top K算法

l 利用Hash将1000万记录哈希到300万的范围内，统计每个记录的频度(trie,hash_map)。然后用维护一个大小为10的小顶堆遍历这300万的统计结果。

l 也可以用trie树，在关键字域存储其串的出现次数，然后用小顶堆求

12)腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？。

l 快排+二分

l 用bit-map，40亿个bit = 5亿的B，因为10亿B约1G，所以约占500M内存

l Unsigned int的范围是2^32，分成2^10个小文件，每个文件为的范围是2^22，小文件间有序。计算数属于那个文件范围，然后在文件内寻找;

l 同上一个方法类似，《编程珠玑》中提到，用一个32位的二进制代表整数，首先根据第一位（最高位）的0或1分类，然后在第二位的0或1分类，以此类推。

l 位图的方法：如果知道最大的整数

最低0.47元/天解锁文章

Hou_Rj

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
面试-海量题集-笔记

http://hi.baidu.com/mianshiti/blog/item/f6ac8fef7e47502862d09fbf.htmlhttp://hi.baidu.com/clive_studio/blog/item/a641318ee04e00f0513d9294.h
复制链接

扫一扫