名人博客阅读摘要一：教你如何迅速秒杀掉：99%的海量数据处理面试题-CSDN博客

本文链接：https://blog.csdn.net/dongyi91/article/details/38237333

1. 教你如何迅速秒杀掉：99%的海量数据处理面试题

1.1 STL容器分两种

序列式容器：(vector/list/deque/stack/queue/heap)。

关联式容器：又分为set(集合)和map(映射表)两大类，以及这两大类的衍生体multiset(多键集合)和multimap(多键映射表)，这些容器均以RB-tree完成。此外，还有第3类关联式容器，如hashtable(散列表)，以及以hashtable为底层机制完成的hash_set(散列集合)/hash_map(散列映射表)/hash_multiset(散列多键集合)/hash_multimap(散列多键映射表)。也就是说，set/map/multiset/multimap都内含一个RB-tree，而hash_set/ hash_map/ hash_multiset/hash_multimap都内含一个hashtable。

什么样的结构决定其什么样的性质，因为set/map/multiset/multimap都是基于RB-tree之上，所以有自动排序功能，而hash_set/hash_map/hash_multiset/hash_multimap都是基于hashtable之上，所以不含有自动排序功能，至于加个前缀multi_无非就是允许键值重复而已。

1.2 密匙一、分而治之/Hash映射 + Hash_map统计 + 堆/快速/归并排序

1.2.1 海量日志数据，提取出某日访问百度次数最多的那个IP

Hash映射将大文件分成小文件，同时保证相同的IP记录分在同一个小文件中，然后进行Hash_map统计，再排序，得到每个小文件中的Top1，最后对所有的Top1排序。

1.2.2 寻找热门查询，300万个查询字符串中统计最热门的10个查询

当内存可以完全容纳的时候，就不需要分而治之，直接运用Hash_map统计每个查询字符串出现的次数，然后求解Top10。

1.2.3 有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词

顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件；对每个小文件，采用trie树/hash_map等统计每个文件中出现的词以及相应的频率；取出出现频率最大的100个词（可以用含100个结点的最小堆）后，再把100个词及相应的频率存入文件，这样又得到了5000个文件。最后就是把这5000个文件进行归并（类似于归并排序）的过程了。