大数据面试遇到的问题

1.yarn调度有哪几种方式,优缺点是什么?

a) Fifo schedular 默认的调度器  先进先出

b) Capacity schedular  计算能力调度器    选择占用内存小  优先级高的

c) Fair schedular 调度器    公平调度器   所有job 占用相同资源


2.大数据集群数据丢失了如何恢复?

3.你平时遇到过那些故障并且如何解决?

4.namenode如何优化?

5.Namenode启动流程是什么?

6.flume 有几种模式,你们常用那些模式?

7.hadoop如何调优?

8.kafka运行流程图?

9.画图,说说spark shuffle的过程,以及如何在编程的时候注意什么

10.如何把hue集合到ambari中统一管理

11.说明ranger原理

12.有35台服务器(24核48G)有一个SQL查询大表(几十亿),小表(1亿),需要在一分钟运行20次SQL查询,用spark如何实现,SQL是固定死的,SQL本身不能优化。

13.hive内部表和外部表区别

1)在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的!而表则不一样;
2)在删除内部表的时候,Hive将会把属于表的元数据和数据全部删掉;而删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除的!
那么,应该如何选择使用哪种表呢?在大多数情况没有太多的区别,因此选择只是个人喜好的问题。但是作为一个经验,如果所有处理都需要由Hive完成,那么你应该创建表,否则使用外部表!

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值