hadoop、大数据面试题(11) 比较好

1、hdfs原理,以及各个模块的职责

2、mr的工作原理

3、map方法是如何调用reduce方法的

4、 shell 如何判断文件是否存在,如果不存在该如何处理?

5、fsimage和edit的区别?

6、hadoop1和hadoop2的区别?

笔试:

1、hdfs中的 block 默认保存几份?

2、哪个程序通常与nn在一个节点启动?并做分析

3、列举几个配置文件优化?

4、写出你对zookeeper的理解

5、datanode首次加入cluster的时候,如果log报告不兼容文件版本,那需要namenode执行格式化操作,这样处理的原因

是?

6、谈谈数据倾斜,如何发生的,并给出优化方案

7、介绍一下hbase 过滤器

8、mapreduce基本执行过程

9、谈谈hadoop1和hadoop2的区别

10、hbase集群安装注意事项

11、记录包含值域F和值域G,要分别统计相同G值的记录中不同的F值的数目,简单编写过程。

信息技术有限公司

1、你们的集群规模?

 大概400多台机器。主要有专门的运维人员负责维护

hadoop版本 Hadoop 2.5.0-cdh5.2.0



2、你们的数据是用什么导入到数据库的?导入到什么数据库?

 mysql  

通过python产生 csv文件,然后有一个nginix服务器,把文件拉到mysql的机器,然后通过通过mysql的命令将.csv文件装进数据库


3、你们业务数据量多大?有多少行数据?(面试了三家,都问这个问题)

     我们的数据 : 每个小时的 中间表: 8.6G   一天的话有  207G   保存 3个月, 大约有18T 的数据量

     累积用户:58,00万 

活跃用户 :2,00万

 新增用户: 14万



4、你们处理数据是直接读数据库的数据还是读文本数据?

    读取数据库


5、你们写hive的hql语句,大概有多少条?

 写的不多


6、你们提交的job任务大概有多少个?这些job执行完大概用多少时间?(面试了三家,都问这个问题)

   这个只能看什么了呢?  

只能让他们看我们的代码了。不能说其他的了。对吧

7、hive跟hbase的区别是?

8、你在项目中主要的工作任务是?

9、你在项目中遇到了哪些难题,是怎么解决的?

10、你自己写过udf函数么?写了哪些?

11、你的项目提交到 job 的时候数据量有多大?(面试了三家,都问这个问题)

12、reduce后输出的数据量有多大?
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值