海量数据常见的面试题（频次最高+随机抽样）

最新推荐文章于 2022-10-06 23:55:53 发布

sxf_0123

最新推荐文章于 2022-10-06 23:55:53 发布

阅读量337

点赞数

分类专栏：面试题

面试题专栏收录该内容

8 篇文章 0 订阅

订阅专栏

海量数据常见的面试题（频次最高+随机抽样）

【在海量数据中统计出现次数最多的n个】

分两种情况，

1 如果数据能够在内存中放下，比如如果海量数据是ip地址，最多有4G个ip地址，每个ip地址占4个字节需要内存16G，如果内存在几十G，则完全可以全部装入内存，

直接读取大文件，然后创建一个hash表，统计次数，最后再用堆统计最大的n个

2 如果不能在内存放下，比如海量数据是字符串，不同的字符串个数无限，内存中可能存不下，那么需要先将海量数据进行分堆，按照hash值进行分堆，分成适宜在内存中操作的小文件，比如内存1G，字符串有20G，那么就分成20个以上的小文件

为什么要用hash分堆，这样是为了保证同一个字符串只会出现在同一个文件

【随机抽样问题】
要求从N个元素中随机的抽取k个元素，其中N无法确定。
这种应用的场景一般是数据流的情况下，由于数据只能被读取一次，而且数据量很大，并不能全部保存，因此数据量N是无法在抽样开始时确定的；但又要保持随机性，于是有了这个问题。所以搜索网站有时候会问这样的问题。
这里的核心问题就是“随机”，怎么才能是随机的抽取元素呢？我们设想，买彩票的时候，由于所有彩票的中奖概率都是一样的，所以我们才是“随机的”买彩票。那么要使抽取数据也随机，必须使每一个数据被抽样出来的概率都一样。
【解决】
解决方案就是蓄水库抽样（reservoid sampling）。主要思想就是保持一个集合（这个集合中的每个数字出现），作为蓄水池，依次遍历所有数据的时候以一定概率替换这个蓄水池中的数字。
其伪代码如下：

[cpp]view plain copy
Init : a reservoir with the size： k  
       for    i= k+1 to N  
           M=random(1, i);  
           if( M < k)  
                SWAP the Mth value and ith value  
      end for