关于海量数据的面试题

最新推荐文章于 2022-03-02 11:04:30 发布

cafe-BABE

最新推荐文章于 2022-03-02 11:04:30 发布

阅读量321

点赞数

分类专栏：后端文章标签：大数据

原文链接：https://blog.csdn.net/v_july_v/article/details/6685962

版权

后端专栏收录该内容

2 篇文章 0 订阅

订阅专栏

【1】处理2.5亿的数据，怎么样找出不重复的数据

（使用2bitmap，00表示不存在，01表示唯一，10表示重复）

类似问题：已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。

8位最多99 999 999，大概需要99 999 999个bit，大概10几m字节的内存即可。（可以理解为从0-99 999 999的数字，每个数字对应一个Bit位，所以只需要99M个Bit==1.2MBytes，这样，就用了小小的1.2M左右的内存表示了所有的8位数的电话）

【2】给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

方案1：一个文件的大小为5*64=320G（10亿字节是1G），远远超出内存大小4G，所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit（1g内存大约有10亿字节，40*8=320亿）。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

【3】有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。

方案1、先内排序，再外排序

注：这里要知道hashmap如何根据value来进行排序。可以这样：

方案2、虽然有很多的query，但是很多query是重复的，因此可能对于所有的非重复的query，一次性就可以加入到内存了。这样，我们就可以采用前缀树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

【4】、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频率最高的100个词。

这里最后的归并其实就是和：前面的m个有序数组排序的思想类似，可以使用递归完成。

【5】、海量日志数据，提取出某日访问百度次数最多的那个IP。

【6】、海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10大。

像这种topk大或者topk小的题目，就是使用堆，topk大使用小跟堆，topk小使用大根堆。

【7】、怎么在海量数据中找出重复次数最多的一个？

方案1：先做hash，也就是hash(数据)%1000，将数据模映射到很多的小文件中，然后每个小文件使用hashmap或者前缀树统计每个数据出现的次数，然后得到出现次数最大的数据，存入即频率存入一个文件中，最后求出1000个文件中频率最大的数据即可。

【8】、1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。请怎么设计和实现？

使用前缀树

【9】一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。

这题是考虑时间效率。用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度）。然后是找出出现最频繁的前10个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O(n*lg10)。所以总的时间复杂度，是O(n*le)与O(n*lg10)中较大的哪一个。

【10】一个文本文件，找出前10个经常出现的词，但这次文件比较长，说是上亿行或十亿行，总之无法一次读入内存，问最优解。

首先根据用hash并求模，将文件分解为多个小文件，对于单个文件利用上题的方法求出每个文件件中10个最常出现的词。然后再进行归并处理，找出最终的10个最常出现的词。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cafe-BABE CSDN认证博客专家 CSDN认证企业博客

码龄8年

130: 原创

4万+: 周排名

152万+: 总排名

37万+: 访问

: 等级

4474: 积分

181: 粉丝

523: 获赞

284: 评论

1366: 收藏

私信

关注

热门文章

分类专栏

面试
机器学习 1篇
word 1篇
linux 5篇
shell 1篇
redis 5篇
mysql 14篇
设计模式 3篇
计网 1篇
java 42篇
后端 2篇
markdown 1篇
ES 2篇
jvm 6篇
android开发 6篇
STM32
C++ 7篇
算法 32篇
python
IDE 1篇
SLAM 5篇
mathtype 1篇
ubuntu 17篇

最新评论

使用CloudCompare评估ICL-NUIM数据集
m0_57510904: 博主好！请问ICL-NUIM数据集官网的轨迹GT和场景模型GT是你如何对齐的呀，它们之间貌似存在着左右手坐标系的镜像，但是尝试了几次变换发现仍然对不上。
GCNv2编译过程中出现的问题
Yoake0727: 成功了么？
将rgbd数据集制作成rosbag，并发布图片和camera_info消息
qq_51506668: 博主，rosrun image_transport_tutorial my_publisher path/to/some/image.jpg时没有image_transport_tutorial，rosrun不出来
启动ElasticSearch闪退，并显示： “此时不应有 \Java\jdk1.8.0_181\bin\java.exe，，，”
滔之源: 很可能是识别不了带特殊符号的路径，比如（）
【MySQL】面试题之：MVCC能否解决幻读？
亦人亦人: 不可重复读、幻读都是为了解决事务之间的互相影响，以达到事务隔离性的要求。一个事务内的修改当然可见了。具体来说，第一次select会创建read view，但是update会在版本链中增加本事务的修改版本，readview根据版本链数据访问规则会选择本事务的修改。

大家在看

【快速上手】linux环境下Neo4j的安装与使用

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。