【Hadoop】入门三道经典面试题

1. 一个超级大文件,每行一个url,求每一个url出现的次数
1.1 如果是小文件
  1. 创建一个读取文件的流
  2. 创建一个存放url的容器Map
    key:url
    value:出现的次数
  3. 读取url到Map集合中
    判断map中是否存在该url:
    不存在
    map.put(url,1)
    存在
    map.put(url,map.get(url)+1)
    最后这个map中就是每一个url对应出现的次数
1.2 如果是超级大文件

考虑容器map、array、list、set ,这些都是在JVM的内存的,然后就OOM了
那怎么办呢,分布式的思想,分而治之

  1. 将超级大文件切分为多个小文件
  2. 对每个小文件分别计算url出现的次数
  3. 汇总所有小文件的结果
    在这里插入图片描述

其实就是体现了hdfs+mapreduce思想

2. 两个超级大文件,每行一个url,求两个文件中相同的url
2.1 如果是两个小文件
  1. 创建两个读文件的流
  2. 创建两个放URL的容器Set
  3. 遍历某个set,判断是否在别一set中(set.contains())
2.2 如果是两个超级大文件

分而治之+分区

  1. 将两个大文件分别切分成小文件
    两个大文件切分需要满足一定的规则
    url.hashCode%分区数量
    分区数量可以相同或成位数关系

  2. 将两个大文件分成的小文件进行关联对比分析
    在这里插入图片描述

这就体现了mapreduce+hive的思想

3. 一个超级大文件,每行一个url,快速查询出给定的url是否在这个大文件中

这个题目的重点是快速查询

3.1 如果是小文件
  1. 创建一个读文件的流
  2. 创建一个放url的容器set
  3. 判断set中是否存在set.contains
3.2如果是超级大文件

考虑容器:

  • 数组:数组索引 基于下标查询 快
  • list
    arraylist 查询快
    linkedlist 增删快

所以我们将url存储在数组的下边中,将url取hash当作下标(url.hashCode),然后该下标的数组值为1是存在,0为不存在。
bit[]
但是数组的缺点:1)长度不好确定2)散列造成空间的浪费
在这里插入图片描述
快速查询体现了hbase的思想

关于误判率
布隆过滤器主要用于判断一个元素是否存在于某个集合。得益于其简单的原理和极高的空间效率,被广泛用于海量数据处理,比如Web爬虫、垃圾邮件过滤、拼写检测等。
布隆过滤器误判指某个元素并不存在于集合中,却判定为存在于集合中。意即某元素经过k个哈希运算所得的索引都为1。本质是哈希碰撞。
假设:
数组长度为m
哈希函数个数为k
共有数据条数为n
则误判率= ( 1 − e − k n / m ) k (1-e^{-kn/m})^k (1ekn/m)k
n已确定,通过公式找到一个合适的m和k,使误判率足够低,满足预期。

布隆过滤器参考:
https://www.douban.com/note/342448148/
https://blog.csdn.net/u012400327/article/details/62222922

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值