1.yarn调度有哪几种方式,优缺点是什么?
a) Fifo schedular 默认的调度器 先进先出
b) Capacity schedular 计算能力调度器 选择占用内存小 优先级高的
c) Fair schedular 调度器 公平调度器 所有job 占用相同资源
2.大数据集群数据丢失了如何恢复?
3.你平时遇到过那些故障并且如何解决?
4.namenode如何优化?
5.Namenode启动流程是什么?
6.flume 有几种模式,你们常用那些模式?
7.hadoop如何调优?
8.kafka运行流程图?
9.画图,说说spark shuffle的过程,以及如何在编程的时候注意什么
10.如何把hue集合到ambari中统一管理
11.说明ranger原理
12.有35台服务器(24核48G)有一个SQL查询大表(几十亿),小表(1亿),需要在一分钟运行20次SQL查询,用spark如何实现,SQL是固定死的,SQL本身不能优化。
13.hive内部表和外部表区别
1)在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的!而表则不一样;
2)在删除内部表的时候,Hive将会把属于表的元数据和数据全部删掉;而删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除的!
那么,应该如何选择使用哪种表呢?在大多数情况没有太多的区别,因此选择只是个人喜好的问题。但是作为一个经验,如果所有处理都需要由Hive完成,那么你应该创建表,否则使用外部表!