大数据面试-20210318

最新推荐文章于 2023-05-19 23:36:53 发布

大数据架构师Pony

最新推荐文章于 2023-05-19 23:36:53 发布

阅读量169

点赞数

分类专栏：大数据之Hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011110301/article/details/117781802

版权

大数据之Hadoop 专栏收录该内容

28 篇文章 1 订阅

订阅专栏

目录

1、hdfs 写文件过程

2、hbase的二级索引是怎么实现的

3、在海量日志数据中，提取出某日访问百度次数最多的那个IP

基础题

1、hdfs 写文件过程

以3节点3副本为例：

1、客户端通过Distributed FileSystem（FS对象）请求namenode上传文件到对应的目录下，namenode接收到请求后，检查目标文件是否已存在。

2、namenode返回是否可以上传。

3、client会先对文件进行切分，比如一个block块128m，请求第一个 block该传输到哪些datanode服务器上。

4、namenode返回三个datanode节点A、B、C，根据距离远近以及负载大小返回给客户端。

5、client请求一台datanode上传数据（本质上是一个RPC调用，建立pipeline），第一个datanode收到请求会继续调用第二个datanode，然后第二个调用第三个datanode，将整个pipeline建立完成，逐级返回客户端。

6、client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位（一个packet为64kb），当然在写入的时候datanode会进行数据校验，它并不是通过一个packet进行一次校验而是以chunk为单位进行校验（512byte），第一台datanode收到一个packet就会传给第二台，第二台传给第三台；第一台每传一个packet会放入一个应答队列等待应答。

思考题

2、hbase的二级索引是怎么实现的

从0.94版本开始，HBase官方文档已经提出了hbase上面实现二级索引的一种路径：

基于Coprocessor（0.92版本开始引入，达到支持类似传统RDBMS的触发器的行为）

开发自定义数据处理逻辑，采用数据“双写”（dual-write）策略，在有数据写入同时同步到二级索引表

智力题

3、在海量日志数据中，提取出某日访问百度次数最多的那个IP

首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。

具体步骤：

1、IP地址最多有2^32=4G，所以不能完全加载到内存中处理；

2、可以考虑采用分而治之的思想，按照IP地址的Hash(IP) % 1024值，把海量IP日志分别存储到1024个小文件中，这样，每个小文件最多包含4MB个IP地址；

3、对于每一个小文件，可以构建一个IP为key，出现的次数为value的Hash Map，同时记录当前出现次数最多的那个IP地址；

4、可以得到1024个小文件中的出现次数最多的那个IP，再依据常规的排序算法得出总体上出现次数最多的IP。

7、当一个block传输完成之后，client再次请求namenode上传第二个block的服务器，直到数据传输完成，关流。

大数据架构师Pony

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据面试-20210318

基础题1、hdfs 写文件过程以3节点3副本为例：1、客户端通过Distributed FileSystem（FS对象）请求namenode上传文件到对应的目录下，namenode接收到请求后，检查目标文件是否已存在。2、namenode返回是否可以上传。3、client会先对文件进行切分，比如一个block块128m，请求第一个 block该传输到哪些datanode服务器上。4、namenode返回三个datanode节点A、B、C，根据距离远近以及负载大小返回给客户..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据架构师Pony 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。