hadoop、大数据面试题（11）比较好

最新推荐文章于 2022-04-16 15:42:37 发布

冥想者-定

最新推荐文章于 2022-04-16 15:42:37 发布

阅读量1.1k

点赞数

分类专栏：大数据面试题

大数据面试题专栏收录该内容

28 篇文章 1 订阅

订阅专栏

1、hdfs原理，以及各个模块的职责

2、mr的工作原理

3、map方法是如何调用reduce方法的

4、 shell 如何判断文件是否存在，如果不存在该如何处理？

5、fsimage和edit的区别？

6、hadoop1和hadoop2的区别？

笔试：

1、hdfs中的 block 默认保存几份？

2、哪个程序通常与nn在一个节点启动？并做分析

3、列举几个配置文件优化？

4、写出你对zookeeper的理解

5、datanode首次加入cluster的时候，如果log报告不兼容文件版本，那需要namenode执行格式化操作，这样处理的原因

是？

6、谈谈数据倾斜，如何发生的，并给出优化方案

7、介绍一下hbase 过滤器

8、mapreduce基本执行过程

9、谈谈hadoop1和hadoop2的区别

10、hbase集群安装注意事项

11、记录包含值域F和值域G，要分别统计相同G值的记录中不同的F值的数目，简单编写过程。

信息技术有限公司

1、你们的集群规模？

大概400多台机器。主要有专门的运维人员负责维护

hadoop版本 Hadoop 2.5.0-cdh5.2.0

2、你们的数据是用什么导入到数据库的？导入到什么数据库？

mysql

通过python产生 csv文件，然后有一个nginix服务器，把文件拉到mysql的机器，然后通过通过mysql的命令将.csv文件装进数据库

3、你们业务数据量多大？有多少行数据？(面试了三家，都问这个问题)

我们的数据 : 每个小时的中间表： 8.6G 一天的话有 207G 保存 3个月，大约有18T 的数据量

累积用户：58,00万

活跃用户：2,00万

新增用户： 14万

4、你们处理数据是直接读数据库的数据还是读文本数据？

读取数据库

5、你们写hive的hql语句，大概有多少条？

写的不多

6、你们提交的job任务大概有多少个？这些job执行完大概用多少时间？(面试了三家，都问这个问题)

这个只能看什么了呢？

只能让他们看我们的代码了。不能说其他的了。对吧

7、hive跟hbase的区别是？

8、你在项目中主要的工作任务是？

9、你在项目中遇到了哪些难题，是怎么解决的？

10、你自己写过udf函数么？写了哪些？

11、你的项目提交到 job 的时候数据量有多大？(面试了三家，都问这个问题)

12、reduce后输出的数据量有多大？

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop、大数据面试题（11）比较好

1、hdfs原理，以及各个模块的职责2、mr的工作原理3、map方法是如何调用reduce方法的4、shell如何判断文件是否存在，如果不存在该如何处理？5、fsimage和edit的区别？6、hadoop1和hadoop2的区别？笔试：1、hdfs中的block默认保存几份？2、哪个程序通常与nn在一个节点启动？并做分析3、
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。