海量数据处理问题总结

目录


此博客主要总结海量数据处理问题,如对海量数据处理方法不是很了解,可移步海量数据处理方法总结,如果对此博客分析数据计算不了解,可移步(海量数据处理计算及算法实现总结

方法回顾

  1. 分而治之 / Hash 映射 + Hash 统计 + 堆 / 快速 / 归并排序
  2. 双层桶划分
  3. BitMap / Bloom Filter
  4. Trie 树 / 数据库索引 / 倒排索引
  5. 外排序
  6. 分布式处理之Hadoop / Mapreduce

面试问题总结

给定 a、b 两个文件,各存放 50 亿个url,每个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url?

100亿 * 64 byte = 6400 亿 byte = 640 GB,远大于内存限制。

  • 方案一:算法思想:分而治之 / Hash 映射 + Hash 统计

    1. 使用哈希函数分流,即 hash(url) %1000,320GB 文件分到 1000 个小文件后, 每个平均是 320 MB.

    这里运用两个哈希的性质:

    1. 优秀的哈希函数能保证映射的均匀,因此每个小文件的大小应该都是 320MB 左右。
    2. 同 key 必同桶,同桶不一定同 keys。因此a, b俩文件中相同的url一定在同一个小文件中。
    1. 对a,b映射的小文件 pair-by-pair 地进行比对,使用 java 中的 hashset, 来看是否有重复. 有重复的就输出写入到一个输出txt文件中.
  • 方案二:算法思想:bitmit / bloom Filter
      建立 bitmap,把每个 url 映射到 k 个 bit 上, 先把 a 的放进去, 再把 b 的url逐一映射进行检查, 如果重复, 就写出到文本文件上。相同的判断有一定的错误率, 这是bloomFilter 不完美的地方。

海量日志数据,提取出某日访问百度次数最多的那个IP。

  • 方案:算法思想:分而治之 / Hash 映射 + Hash 统计
    1. IP 地址最多有 2^32=4G 种取值情况,所以不能完全加载到内存中处理;
    2. 可以考虑采用”分而治之”的思想,按照 IP 地址的 Hash(IP)%1024 值,把海量 IP 日志分别存储到 1024 个小文件中。这样,每个小文件最多包含 4MB 个IP地址;
    3. 对于每一个小文件,可以构建一个 IP 为 key,出现次数为 value 的 HashMap,同时记录当前出现次数最多的那个 IP 地址;
    4. 可以得到 1024 个小文件中的出现次数最多的 IP,再依据常规的排序算法得到总体上出现次数最多的 IP;
  • 拓展:找出 Top 100 的 IP
      找出每个小文件的 top100, 然后再对所有小文件的 top100 进行内外结合排序(可以内部使用 quicksort,每个花费 O(nlgn),然后外部使用多路归并算法,O(N) 时间).

100w个数中找出最大的100个数。

  • 方案1:用一个含100个元素的最小堆完成。复杂度为O(100w*lg100)。

  • 方案2:采用快速排序的思想,每次分割之后只考虑比轴大的一部分,知道比轴大的一部分在比 100 多的时候,采用传统排序算法排序,取前 100 个。复杂度为 O(100w*100)。

  • 方案3:采用局部淘汰法。选取前 100 个元素,并排序,记为序列 L。然后一次扫描剩余的元素 x,与排好序的 100 个元素中最小的元素比,如果比这个最小的要大,那么把这个最小的元素删除,并把x利用插入排序的思想,插入到序列 L 中。依次循环,知道扫描了所有的元素。复杂度为 O(100w*100)。

有 10 个文件,每个文件 1G,每个文件的每一行存放的都是用户的 query,每个文件的 query 都可能重复。要求你按照 query 的频度排序。

Top-K 算法问题变种

  • 方案1:算法思想:Hash 映射 + Hash 统计 + 堆 / 快速 / 归并排序

    1. Hash映射:顺序读取 10 个文件,按照 hash(query)%10 的结果将 query 写入到另外 10 个文件(记为a0,a1,…a9)中。这样新生成的文件每个的大小大约也1G(假设hash函数是随机的)。
    2. hashMap统计:找一台内存在 2G 左右的机器,依次对用 hashmap(query, query_count) 来统计每个 query 出现的次数。注:hash_map(query,query_count) 是用来统计每个query的出现次数,不是存储他们的值,出现一次,则count+1。
    3. 堆/快速/归并排序:利用快速/堆/归并排序按照出现次数进行排序,将排序好的query和对应的 query_cout 输出到文件中,这样得到了 10个 排好序的文件(记为)。最后,对这10个文件进行归并排序(内排序与外排序相结合)
  • 方案2:算法思想:Trie 树
      一般 query 的总量是有限的,只是重复的次数比较多而已,可能对于所有的 query,一次性就可以加入到内存了。这样,我们就可以采用 trie 树 / hash_map 等直接来统计每个 query 出现的次数,然后按出现次数做快速 / 堆 / 归并排序就可以了。

  • 方案3:算法思想:Hadoop / Mapreduce
      与方案1类似,但在做完 hash,分成多个文件后,可以交给多个文件来处理,采用分布式的架构来处理(比如MapReduce),最后再进行合并。

有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。

  • 方案:算法思想:分而治之 / Hash 映射 + Hash 统计 / Trie 树 + 堆 / 快速 / 归并排序
    1. 分而治之/hash映射:顺序读文件中,对于每个词 x,取 hash(x)%5000,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。
    2. hashmap统计:对每个小文件,采用 trie 树 / hashmap 等统计每个文件中出现的词以及相应的频率。
    3. 堆/归并排序:取出出现频率最大的 100 个词(可以用含 100 个结点的最小堆)后,再把100个词及相应的频率存入文件,这样又得到了 5000 个文件。最后就是把这5000个文件进行归并(类似于归并排序)的过程了。

在2.5亿个整数中找出不重复的整数,内存不足以容纳这2.5亿个整数

  • 方案1:算法思想:分而治之 / Hash 映射 + Hash 统计

    1. 分而治之/hash映射
    2. hashmap统计
    3. 找出所有value为1的key值
  • 方案2:Bitmap / bloom Filter
      采用 2-Bitmap(每个数分配 2bit,00 表示不存在,01 表示出现一次,10 表示多次,11 无意义)进行,共需内存 2^32 * 2 bit=1 GB内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。

1000万字符串,其中有些是重复的,需要把重复的全部去掉,保留没有重复的字符串。请怎么设计和实现?

  • 方法1:分而治之,先哈希到 1000 个小文件,由于同 key 必同桶. 再对每个小文件使用 hashset / hashmap 找出不重复的, 输出到对应的一个小文件上. 最后合并这 1000 个小文件.
  • 方法2:也可以使用字典树(trie树),这样查找效率会很高。不过凡是 trie 树能做的,用 hashmap 都能做。

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。

原题:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门),请你统计最热门的10个查询串,要求使用的内存不能超过1G。

数据规模大,一次处理不了,我们就需要将数据通过hash映射切分;而本题的情况属于数据量可以一次放入内存(300万个字符串假设没有重复,都是最大长度,那么最多占用内存3M*1K / 4=0.75G。所以可以将所有字符串都存放在内存中进行处理),所以只是需要一个合适的数据结构

所以我们在此直接读数据进行 hash 统计,统计后的数据只有 0.75G,可以直接进行排序,而对这种 TopK 问题,一般是采用堆来解决。

  • 方案1:算法思想:分而治之 / Hash 映射 + Hash 统计
    1. HashMap 统计:先对这批海量数据预处理。具体方法是:维护一个 Key 为 Query 字串,Value 为该 Query 出现次数的 HashMap,即 HashMap(Query,Value),每次读取一个 Query,如果该字串不在 HashMap 中,那么加入该字串,并且将 Value 值设为1;如果该字串在 HashMap 中,那么将该字串的计数加一即可。最终我们在 O(N) 的时间复杂度内用 Hash 表完成了统计;
    2. 堆排序:借助堆这个数据结构,找出 Top K,时间复杂度为 O(NlogK)。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的 Query,分别和根元素进行对比。所以,我们最终的时间复杂度是:O(N) + N’ * O(logK),(N 为 1000 万,N’ 为 300 万)。
  • 方案2:算法思想:Trie
      采用 Trie 树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。

40亿个不重复的 unsigned int 的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那 40 亿个数当中?

  • 方案1:算法思想:BitMap
      申请512M的内存,一个 bit 位代表一个 unsigned int 值。读入 40 亿个数,设置相应的 bit 位,读入要查询的数,查看相应bit位是否为 1,为 1 表示存在,为 0 表示不存在。

  • 方案2:
    因为 2^32 为 40 亿多,所以给定一个数可能在,也可能不在其中;

    1. 把 40 亿个数中的每一个用 32 位的二进制来表示
    2. 假设这40亿个数开始放在一个文件中。将这40亿个数分成两类:
      a. 最高位为0
      b. 最高位为1
      并将这两类分别写入到两个文件中,其中一个文件中数的个数 <= 20亿,而另一个 >= 20亿(这相当于折半了);
      与要查找的数的最高位比较并接着进入相应的文件再查找
    3. 再把这个文件为又分成两类:
      a. 次最高位为0
      b. 次最高位为1
      并将这两类分别写入到两个文件中,其中一个文件中数的个数<=10亿,而另一个>=10亿(这相当于折半了);
      与要查找的数的次最高位比较并接着进入相应的文件再查找。
    4. 以此类推,就可以找到了,而且时间复杂度为 O(logn)。

附:位图方法:

  • 使用位图法判断整形数组是否存在重复
  • 判断集合中存在重复是常见编程任务之一,当集合中数据量比较大时我们通常希望少进行几次扫描,这时双重循环法就不可取了。
  • 位图法比较适合于这种情况,它的做法是按照集合中最大元素 max 创建一个长度为 max+1 的新数组,然后再次扫描原数组,遇到几就给新数组的第几位置上 1,如遇到5就给新数组的第六个元素置1,这样下次再遇到5想置位时发现新数组的第六个元素已经是 1了,这说明这次的数据肯定和以前的数据存在着重复。这种给新数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。它的运算次数最坏的情况为 2N。如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。

海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10

  • 如果每个数据元素只出现一次,而且只出现在某一台机器中,那么可以采取以下步骤统计出现次数TOP10的数据元素:求出每台电脑上的TOP10后,然后把这100台电脑上的TOP10组合起来,共1000个数据,再利用上面类似的方法求出TOP10就可以了。

  • 如果同一个元素重复出现在不同的电脑中,则有两种方法:

    1. 遍历一遍所有数据,重新hash取摸,如此使得同一个元素只出现在单独的一台电脑中,然后采用上面所说的方法,统计每台电脑中各个元素的出现次数找出TOP10,继而组合100台电脑上的TOP10,找出最终的TOP10。
    2. 暴力求解:直接统计统计每台电脑中各个元素的出现次数,然后把同一个元素在不同机器中的出现次数相加,最终从所有数据中找出TOP10。

10亿个QQ号,让我找出一个QQ号是不是在其中,时间复杂度要求O(1)

  用 Bitmap 来做这个问题。首先对数据进行预处理。定义 10 亿 bit 位个 int。在 32 位计算机下,一个 int 是 32 位,10 亿位的话,就需要 10 亿除以 32 个 int 整数。大概有很多个。第一个 int 标记 0-31 这个数字范围的 QQ 号存不存在,比如说 0000001 这个 QQ 号,我就把第一个 int 的第1位置1。第二个 int 能够标记 32-63 这个范围的QQ存不存在,以此类推。把这 10 亿个 QQ 号预处理一遍。然后计算你给我的这个 QQ 号,它是在哪个 int 里面,然后找到相应的数据位,看是1还是0,就能在O(1)的时间里找到。

移动公司需要对已经发放的所有139段的号码进行统计排序,已经发放的139号码段的文件都存放在一个文本文件中(原题是放在两个文件中),一个号码一行,现在需要将文件里的所有号码进行排序,并写入到一个新的文件中;号码可能会有很多,最多可能有一亿个不同的号码(所有的139段号码),存入文本文件中大概要占1.2G的空间;jvm最大的内存在300以内,程序要考虑程序的可执行性及效率;只能使用Java标准库,不得使用第三方工具。

  • 方案1:
      顺序读取存放号码文件的中所有号码,并取 139 之后的八位转换为 int 类型;每读取号码数满一百万个(这个数据可配置)将已经读取的号码排序并存入新建的临时文件。
    将所有生成的号码有序的临时文件合并存入结果文件。

这个算法虽然解决了空间问题,但是运行效率极低,由于IO读写操作太多,加上步骤1中的排序的算法(快速排序)本来效率就不高

  • 方案2:bitmap
      一个号码占一个 bit,一共需要 99999999 bit ,一个 int32 位,所以需要312.5万个 int 值,即 1250万Byte = 12.5M,算法如下
    1. 初始化 bits[capacity];
    2. 顺序所有读入电话号码,并转换为int类型,修改位向量值 bits[phoneNum]=1;
    3. 遍历 bits 数组,如果 bits[index]=1,转换 index 为电话号码输出。

5亿个int找它们的中位数。

  • 方案1:多层桶结构
      首先我们将 int 划分为 2^16 个区域,然后读取数据统计落到各个区域里的数的个数,之后我们根据统计结果就可以判断中位数落到那个区域,同时知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数就可以了。
    实际上,如果不是 int 是 int64,我们可以经过 3 次这样的划分即可降低到可以接受的程度。即可以先将 int64 分成 2 24个区域,然后确定区域的第几大数,在将该区域分成2 20个子区域,然后确定是子区域的第几大数,然后子区域里的数的个数只有 2^20,就可以直接利用 direct addr table 进行统计了。
  • 方案2:同样需要做两遍统计,如果数据存在硬盘上,就需要读取2次。
    方法同基数排序有些像,开一个大小为65536的Int数组,第一遍读取,统计Int32的高16位的情况,也就是0-65535,都算作0,65536 - 131071都算作1。就相当于用该数除以65536。Int32 除以 65536的结果不会超过65536种情况,因此开一个长度为65536的数组计数就可以。每读取一个数,数组中对应的计数+1,考虑有负数的情况,需要将结果加32768后,记录在相应的数组内。
    第一遍统计之后,遍历数组,逐个累加统计,看中位数处于哪个区间,比如处于区间k,那么0- k-1的区间里数字的数量sum应该<n/2(2.5亿)。而k+1 - 65535的计数和也<n/2,第二遍统计同上面的方法类似,但这次只统计处于区间k的情况,也就是说(x / 65536) + 32768 = k。统计只统计低16位的情况。并且利用刚才统计的sum,比如sum = 2.49亿,那么现在就是要在低16位里面找100万个数(2.5亿-2.49亿)。这次计数之后,再统计一下,看中位数所处的区间,最后将高位和低位组合一下就是结果了。

参考链接

如何正确地解答海量数据处理面试题
海量数据处理方法总结
面试中的海量数据处理问题总结
海量数据处理:十个海量数据处理方法总结
面试笔记–海量数据题目处理总结
Big Data Processing

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KeaLoo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值