【Hadoop】入门三道经典面试题

最新推荐文章于 2024-06-09 15:01:37 发布

时间的美景

最新推荐文章于 2024-06-09 15:01:37 发布

阅读量125

点赞数

分类专栏： Hadoop 文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiajane/article/details/103223454

版权

Hadoop 专栏收录该内容

47 篇文章 2 订阅

订阅专栏

目录

1. 一个超级大文件，每行一个url，求每一个url出现的次数

1.1 如果是小文件

创建一个读取文件的流
创建一个存放url的容器Map
key:url
value:出现的次数
读取url到Map集合中
判断map中是否存在该url:
不存在
map.put(url,1)
存在
map.put(url,map.get(url)+1)
最后这个map中就是每一个url对应出现的次数

1.2 如果是超级大文件

考虑容器map、array、list、set ，这些都是在JVM的内存的，然后就OOM了
那怎么办呢，分布式的思想，分而治之

将超级大文件切分为多个小文件
对每个小文件分别计算url出现的次数
汇总所有小文件的结果

其实就是体现了hdfs+mapreduce思想

2. 两个超级大文件，每行一个url，求两个文件中相同的url

2.1 如果是两个小文件

创建两个读文件的流
创建两个放URL的容器Set
遍历某个set,判断是否在别一set中（set.contains()）

2.2 如果是两个超级大文件

分而治之+分区

将两个大文件分别切分成小文件
两个大文件切分需要满足一定的规则
url.hashCode%分区数量
分区数量可以相同或成位数关系
将两个大文件分成的小文件进行关联对比分析

这就体现了mapreduce+hive的思想

3. 一个超级大文件，每行一个url，快速查询出给定的url是否在这个大文件中

这个题目的重点是快速查询

3.1 如果是小文件

创建一个读文件的流
创建一个放url的容器set
判断set中是否存在set.contains

3.2如果是超级大文件

考虑容器：

数组：数组索引基于下标查询快
list
arraylist 查询快
linkedlist 增删快

所以我们将url存储在数组的下边中,将url取hash当作下标(url.hashCode)，然后该下标的数组值为1是存在，0为不存在。
bit[]
但是数组的缺点：1）长度不好确定2）散列造成空间的浪费
在这里插入图片描述
快速查询体现了hbase的思想

关于误判率
布隆过滤器主要用于判断一个元素是否存在于某个集合。得益于其简单的原理和极高的空间效率，被广泛用于海量数据处理，比如Web爬虫、垃圾邮件过滤、拼写检测等。
布隆过滤器误判指某个元素并不存在于集合中，却判定为存在于集合中。意即某元素经过k个哈希运算所得的索引都为1。本质是哈希碰撞。
假设：
数组长度为m
哈希函数个数为k
共有数据条数为n
则误判率= $1-e^{-kn/m})^k$
n已确定，通过公式找到一个合适的m和k，使误判率足够低，满足预期。

布隆过滤器参考：
https://www.douban.com/note/342448148/
https://blog.csdn.net/u012400327/article/details/62222922

时间的美景

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Hadoop】入门三道经典面试题

目录1. 一个超级大文件，每行一个url，求每一个url出现的次数1.1 分析1.1.1 如果是小文件1.1.2如果是超级大文件2. 两个超级大文件，每行一个url，求两个文件中相同的url2.1 分析2.1.1 如果是两个小文件2.1.2 如果是两个超给大文件3. 一个超级大文件，每行一个url，快速查询出给定的url是否在这个大文件中3.1 分析3.1.1 如果是小文件3.1.2如果是超级大文...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。