hadoop合并日志_hadoop错题

1.磁盘是hadoop集群运行时的最主要瓶颈

2.snappy,Gzip压缩不能被切分

3.

2bc07cca1fbdb54fcb6feede3b4c2aa2.png

4.
HDFS-HA工作要点中元数据管理,描写正确的是?[多选]

  • A、俩个namenode内存中各自保存一份元数据
  • B、Edits日志只有Active状态的NameNode节点可以做写操作
  • C、两个NameNode都可以读取Edits
  • D、共享的Edits放在一个共享存储中管理(qjournal和NFS两个主流实现)

【参考答案】: ABCD

【您的答案】: ABD

5.
配置机架感知的下面哪项正确:[多选]

  • A、如果一个机架出问题,不会影响数据读写
  • B、写入数据的时候会写到不同机架的 DataNode 中
  • C、MapReduce 会根据机架获取离自己比较近的网络数据
  • D、以上都不对

【参考答案】: ABC

【您的答案】: AC

6.
ReduceTask工作机制描述不正确的是?

  • A、Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。
  • B、Combine阶段:当所有数据处理完成后,ReduceTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。
  • C、Sort阶段:按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可。
  • D、Reduce阶段:reduce()函数将计算结果写到HDFS上。

【参考答案】: B

【您的答案】: A

7.
对OutputFormat接口实现类描述正确的是?[多选]

  • A、OutputFormat是MapReduce输出的基类
  • B、所有实现MapReduce输出都实现了OutputFormat接口
  • C、TextOutputFormat是默认的输出格式,它把每条记录写为文本行。它的键和值可以是任意类型,因为TextOutputFormat调用toString()方法把它们转换为字符串。
  • D、SequenceFileOutputF输出作为后续MapRedue任务的输入,这便是一种好的输出格式,因为它的格式紧凑,很容易被压缩。

【参考答案】: ABCD

【您的答案】: BD

8.
HDFS小文件解决方案描述正确的是?[多选]

  • A、在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。
  • B、在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并。
  • C、在MapReduce处理时,可采用CombineTextInputFormat提高效率。
  • D、开启jvm重用

【参考答案】: ABCD

【您的答案】: ABC

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值