文章目录
- HadoopHA问答题
-
- 一、Hadoop中的压缩作为一种常用的优化手段,经常被用在什么场景下?
- 二、如果想要使用压缩,Hadoop如何对某一种压缩编码格式进行取舍?
- 三、你们公司常用的压缩方式有哪些?
- 四、从哪些方面定位MR执行的效率
- 五、如果想对MR程序进行优化,应该从哪些方面入手以及可能用到的优化手段?
- 六、在Hadoop针对小文件的处理方案有哪些?
- 七、如何解决MR中Reduce的数据倾斜问题?
- 八、大概简述一下 Hadoop每一代版本的新特性?
- 九、什么是Hadoop的HA?
- 十、描述一下HDFS-HA的工作机制?
- 十一、如何实现HA的集群搭建?
- 十二、HDFS如何实现自动故障转移?
- 十三、什么是脑裂问题?HDFS-HA中如何解决的脑裂问题?
- 十四、YARN-HA 实现高可用的思路
- 十五、简单说一下联邦架构(HDFS Federation) 架构设计思想。
HadoopHA问答题
一、Hadoop中的压缩作为一种常用的优化手段,经常被用在什么场景下?
执行MR任务时Mapper结束的时候对落盘的结果文件压缩,从而减轻Reduce任务的压力,进而提升整个MR的执行效率
MR执行前直接读压缩好的文件,也会提升效率,但是要注意压缩格式能不能切片的问题
在Reduce阶段结束的时候压缩,提升磁盘使用率
二、如果想要使用压缩,Hadoop如何对某一种压缩编码格式进行取舍?
根据业务需要综合考虑压缩率、压缩速度、是否支持切片、是否Hadoop自带
三、你们公司常用的压缩方式有哪些?
不经常使用、长久存储的情况,使用Bzip2压缩
MR中Mapper阶段落盘文件压缩的情况,使用Snappy(考虑压缩、解压缩速度)
四、从哪些方面定位MR执行的效率
硬件:
服务器配置
软件:
小文件场景、数据倾斜、不可切片压缩文件、shuffle阶段环形缓冲区配置不合理、文件合并次数过多
五、如果想对MR程序进行优化,应该从哪些方面入手以及可能用到的优化手段?
主要考虑优化IO和内存,可能用到以下手段:
-
读数据的阶段,如果面临大量小文件的场景,可以用CombineTextInputFormat来解决
-
Mapper阶段,减