HadoopHA问答题

HadoopHA问答题

一、Hadoop中的压缩作为一种常用的优化手段,经常被用在什么场景下?

​ 执行MR任务时Mapper结束的时候对落盘的结果文件压缩,从而减轻Reduce任务的压力,进而提升整个MR的执行效率

​ MR执行前直接读压缩好的文件,也会提升效率,但是要注意压缩格式能不能切片的问题

​ 在Reduce阶段结束的时候压缩,提升磁盘使用率

二、如果想要使用压缩,Hadoop如何对某一种压缩编码格式进行取舍?

​ 根据业务需要综合考虑压缩率、压缩速度、是否支持切片、是否Hadoop自带

三、你们公司常用的压缩方式有哪些?

不经常使用、长久存储的情况,使用Bzip2压缩

MR中Mapper阶段落盘文件压缩的情况,使用Snappy(考虑压缩、解压缩速度)

四、从哪些方面定位MR执行的效率

硬件:

​ 服务器配置

软件:

​ 小文件场景、数据倾斜、不可切片压缩文件、shuffle阶段环形缓冲区配置不合理、文件合并次数过多

五、如果想对MR程序进行优化,应该从哪些方面入手以及可能用到的优化手段?

主要考虑优化IO和内存,可能用到以下手段:

  1. 读数据的阶段,如果面临大量小文件的场景,可以用CombineTextInputFormat来解决

  2. Mapper阶段,减

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值