大数据方向面试题目

Datawhale

于 2019-07-29 20:58:57 发布

阅读量1.1k

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/Datawhale/article/details/97680606

版权

这篇博客主要介绍了大数据面试中常见的问题，如如何查找两个大文件中相同的URL、如何对大量query进行排序、如何找出文件中出现频率最高的单词、如何统计访问量最大的IP以及如何在大量整数中找出不重复的数。解决方案包括哈希、Bloom Filter、分治、MapReduce等技术，强调了在资源限制下进行高效处理的策略。

摘要由CSDN通过智能技术生成

1. 相同URL

题目: 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

方案1：估计每个文件的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

遍历文件a，对每个url求取 hash(url)%1000[比如ASCII码值求和], 然后根据所取得的值将url分别存储到1000个小文件(记为a0, a1, … , a999)中。这样每个小文件的大约为300M。

遍历文件b，采取和a相同的方式将url分别存储到1000个小文件(记为b0, b1, … , b999)。

这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1, … , a999 vs b999)中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中

最低0.47元/天解锁文章

Datawhale

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据方向面试题目

1. 相同URL题目: 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：估计每个文件的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a，对每个url求取 hash(url)%1000[比如ASCII码值求和], 然后根据所取得的值将ur...
复制链接

扫一扫

专栏目录