大数据面试题分析

最近学习了hashtable的一点知识,发现可以用来解决大数据的一些问题。我们这里讲的大数据分析事实上并不是分布式和数据挖掘这些高深的概念,而是针对从从一个大文件或者一堆数据(内存放不下)中找出具有某种特点的数,这也是近年来各大公司经常考的问题

面试题1:给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?

解析100G的文件给我们的感觉是太大,我们的电脑内存一般都为4G左右所以不可能一次性把这么多的信息都加载到内存,所以就要进行切分成100份。IP地址是字符串太长,我们可以把它转化为整型%100,这样取模后的值都落在0-99的区间里,所取模后值相同的IP地址都被分配到同一个文件,这时我们就可以采用哈希表统计出每个文件中最多的那个IP地址,最后比较得到100个IP中最大的那个IP就可以了 。

面试题2:与上题条件相同,如何找到top K的IP?

解析看到求TOP K个IP就要立马反应到使用堆排序,这里的堆排序应该注意的是要建一个小堆,想一下我们建大堆的话只能保证堆顶元素为最大的,这样只能得到最大的那个IP。

面试题3:给定100亿个整数,设计算法找到只出现一次的整数

解析整数分为有符号和无符号两种,有符号数的取值为-2147483648~2147483648 是从-21亿到+21亿, 无符号数的范围为0~4294967296是从0到42亿,然而给了我们100亿个整数,要找出只出现一次的整数,所以我们还是要用到哈希表的思想,但我们最好不要定义一个整型数组,因为 42亿*4B  约为16G,这么大的数组我们再进行切分的话就太麻烦了,这里我们可以使用BitMap,用一个位来表示一个数存不存在,不存在表示为0,出现一次表示为1,出现一次以上用另一个位表示。这样就可以将数组的大小减为原来的16分之一。还遇到一个问题,就是到底怎么定义这个数组,正数好定义,负数的话我们可以用32位全1(-1)和它取异或取到和正数相同的位置,我们此时定义一个二维数组,一半表示正数一半表示负数,都位于同一行。此时我们使用1G的空间就可以解决这个问题了。

拓展:要是面试官问我这里只有500M或者更少的空间的话怎么做?

解析同样采用切分的思想,不过我觉得这里我们直接可以按数的范围直接切分。要是有500M 内存的话,我们就切一次就可以了,此时如果我们有50%的几率一次就找到这个只出现一次的数,效率可能更高。

面试题4:给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

解析:这道题思路和上面的一样。

面试题5:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

解析这个问题和以上唯一 不同这道题是找不超过两次的整数,方法一样。

面试题6:给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集分别给出精确算法和近似算法!

解析求两个文件的交集,这种算法我们肯定要用到比较,如果我们把两个文件都均分为100份,拿一个文件里的一份分别与另一个文件里的100份分别比较一次的话效率 就太低了,我们可以借用第1道面试题的思维对它们进行取模,这样我们只要比较取模的为同一值的两个文件比较就可以了,如果相同则标记。

面试题7:如何扩展BloomFilter使得它支持删除元素的操作?

解析BloomFilter并不支持删除元素的操作,因为很可能产生哈希冲突(就是由不同的哈希函数算出的位置指向同一个位),这样改变一个位很可能会影响到其他元素的判断。这里我们可以按照和智能指针sharedptr的思想即“引用计数”来解决,我们添加一个count计数器,每当我们在这个位上表示一个元素时就让它count++,每删除一个涉及到这个位表示的元素时就让它count--,这样只当count为0时我们再对这一位置0,这样就完成了删除的操作。

面试题8:如何扩展BloomFilter使得它支持计数操作?

解析这道题思想和上一道题一样。

面试题9:给上千个文件,每个文件大小为1K—100M。给n个词,设计算法对每个词找到所有包含它的文件,你只有100K内存

解析我们可以使用布隆过滤器来判断一个文件是否包含这n个单词生成n个布隆过滤器放到外存,我们事先定义好一个包含这n个单词信息的文件info,每当我们在一个文件找到一个对应的单词就将这个文件的信息写入info对应单词的位置。我们只有100K内存,这100K内存我们一部分用来存放布隆过滤器一部分可以存放文件,因为文件最小都为100K,所以我们可以尝试把它切分为50K的小文件,每个文件标志好所属的大文件,这样我们每次读入一个布隆过滤器和一个小文件,如果这个文件有对应的单词则在info中标记所属大文件的信息,如果没有则读入下一个布隆过滤器,把所有布隆过滤器都使用后,再读下一个文件重复上述步骤直至把所有文件都遍历完。

面试题10:有一个词典,包含N个英文单词,现在任意给一个字符串,设计算法找出包含这个字符串的所有英文单词

解析首先判断一个单词是否包含一个字符串我们可以用strstr这个函数,对于这个问题,我觉得如果该字符串的前缀和要找的单词一样的话可以采用字典树来查找,但是N个英文单词我们可以假设它很大,我们把它放到一个文件里,每次只读出固定个数个单词进行判断。

总结:对于此类大数据问题我们一般都是采用哈希切分即模上一个数组的长度将数据分配到一个合理的位置,同时将一个大文件切分为小文件,这样特别方便将其与其他数进行比较例如对IP地址取整后进行哈希切分,或者对内部元素进行操作。使用BloomFilter可以进行判断元素在集合的存在与否。

大数据面试题v3.0 pdf》是一本常见的大数据面试题集合。该书主要涵盖了大数据领域的各个方面,包括数据处理、数据存储、数据分析以及大数据工具和技术等。该书的目的是帮助面试者更好地准备大数据面试,提高他们在面试过程中的竞争力。 《大数据面试题v3.0 pdf》这本书非常受欢迎的原因有以下几点: 1. 广泛而全面的内容:该书囊括了大数据领域的众多方面,从数据的采集、清洗、存储,到数据分析、可视化、机器学习等,涵盖了各种重要的技术和工具。面试者可以通过阅读这本书,全面了解大数据的各个方面,做到知识全面、准备充分。 2. 实战性强:书中的题目都是实际工作中常见的问题,具有一定的实战性。通过解答这些问题,读者可以提高自己的实际操作能力和解决问题的能力,更好地应对实际面试中的挑战。 3. 简洁清晰的表达:该书的题目都是精心设计的,问题清晰明了,答案简洁明了,容易理解。这样的设计能够帮助面试者更好地掌握每个问题的重点,并能够简明扼要地回答。 《大数据面试题v3.0 pdf》是一本很好的大数据面试准备资料,帮助面试者系统地学习和复习重要的大数据知识点,并提供了经典的面试题目,能够帮助面试者更好地应对大数据岗位的面试挑战。无论是对于准备面试的人还是对于大数据领域感兴趣的人来说,都是一本非常值得阅读的书籍。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值