Hadoop大数据入门练习题

  1. 下面哪个程序负责HDFS数据存储。
  a) NameNode
  b) Jobtracker
  c) Datanode √(完成数据存储)
  d) secondaryNameNode
  e) tasktracker

  2. HDfS中的block默认保存几份?
  a) 3份√(hdfs-site.xml设置dfs.replication)
  b) 2份
  c) 1份
  d) 不确定

  3. 下列哪个程序通常与NameNode在一个节点启动?
  a) SecondaryNameNode
  b) DataNode
  c) TaskTracker
  d) Jobtracker√

  4. Hadoop作者
  a) Martin Fowler
  b) Kent Beck
  c) Doug cutting√

  5. HDFS默认Block Size
  a) 32MB
  b) 64MB√
  c) 128MB

  有hdfs-site.xml,设置

<property>
  <name>dfs.block.size</name>
  <value>67108864</value>
  <description>The default block size for new files.</description>
</property>
  6. 下列哪项通常是集群的最主要的性能瓶颈
  a) CPU
  b) 网络(次之,数据传输)
  c) 磁盘√(IO读写)
  d) 内存


  7. 关于SecondaryNameNode哪项是正确的?
  a) 它是NameNode的热备
  b) 它对内存没有要求
  c) 它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间√
  d) SecondaryNameNode应与NameNode部署到一个节点

  8. 一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个Block?
  a) 1
  b) 2√(hadoop上传的文件超过block设置,都会分开存储,只是在处理时会作为一个split处理,是由压缩方式决定的,不支持并行处理(分割))
  c) 3
  d) 4

  9. HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?
  a) 64MB
  b) 75MB√(同上)
  c) 一个map读取64MB,另外一个map读取11MB

  10. HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?
  a) 64MB
  b) 75MB
  c) 一个map读取64MB,另外一个map读取11MB√(LZO支持分割。)
附:LZO压缩

* 解压简单,速度非常快。
* 解压不需要内存。
* 压缩相当地快。
* 压缩需要 64 kB 的内存。
* 允许在压缩部分以损失压缩速度为代价提高压缩率解压速度不会降低。
* 包括生成预先压缩数据的压缩级别,这样可以得到相当有竞争力的压缩比。
* 另外还有一个只需要 8 kB 内存的压缩级别。
* 算法是线程安全的。
* 算法是无损的。
LZO 支持重复压缩以及原地解压。
LZO 是块压缩算法——压缩解压成块的数据。压缩与解压所用块的大小必须一样。
 


  多选题:

  11. 下列哪项可以作为集群的管理工具
  a) Puppet√ http://baike.baidu.com/view/1794764.htm?fr=aladdin 
  b) Pdsh√ http://scmbob.org/parallel-distributed-shell.html 
  c) Cloudera Manager√ http://caozs.blog.51cto.com/707029/1223346
  d) Rsync + ssh + scp√  http://baike.baidu.com/view/1183189.htm?fr=aladdin

  12. 配置机架感知的下面哪项正确
  a) 如果一个机架出问题,不会影响数据读写√
  b) 写入数据的时候会写到不同机架的DataNode中√
  c) MapReduce会根据机架获取离自己比较近的网络数据√

  13. Client端上传文件的时候下列哪项正确
  a) 数据经过NameNode传递给DataNode
  b) Client端将文件以Block为单位,管道方式依次传到DataNode√
  c) Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作
  d) 当某个DataNode失败,客户端会继续传给其它DataNode √

  14. 下列哪个是Hadoop运行的模式
  a) 单机版√
  b) 伪分布式√
  c) 分布式√

  15. Cloudera提供哪几种安装CDH的方法 http://www.infoq.com/cn/articles/hadoop-ten-best-practice
  a) Cloudera manager√
  b) Tar ball√
  c) Yum√
  d) Rpm√


  判断题:(全部错)
  16. Ganglia不仅可以进行监控,也可以进行告警(不会)。( )http://duanple.blog.163.com/blog/static/70971767201183092413177/
  17. Nagios不可以监控Hadoop集群,因为它不提供Hadoop支持。( )

http://baike.baidu.com/view/1111497.htm?fr=aladdin
  18. 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。( 不会)
  19. Cloudera CDH是需要付费使用的。( )免费使用,服务收费
  20. Hadoop是Java开发的,所以MapReduce只支持Java语言编写。( 不是)
  21. Hadoop支持数据的随机写。( 不支持)
  22. NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中读取或则会写入metadata信息并反馈client端。( 内存)
  23. NameNode本地磁盘保存了Block的位置信息。( 仅保留元信息,由datanode上报)
  24. Slave节点要存储数据,所以它的磁盘越大越好。( )
  25. Hadoop默认调度器策略为FIFO,并支持多个Pool提交Job。( )
  26. 集群内每个节点都应该配RAID,这样避免单磁盘损坏,影响整个节点运行。( no)
  27. 因为HDFS有多个副本,所以NameNode是不存在单点问题的。( )
  28. 每个map槽就是一个线程。( no,)
  29. Mapreduce的input split就是一个block。( nno)
  30. Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200MB。( )

Hadoop为各个守护进程分配的内存大小”,默认为1000MB,当然实际的肯定需要你根据集群实际情况来设定!分配过大的话,可能会影响整个集群对数据处理的效率,分配过小,可能会导致守护进程异常,进而影响到整个集群的正常运行。
  31. DataNode首次加入cluster的时候,如果log中报告不兼容文件版本,那需要NameNode执行“hadoop namenode -format”操作格式化磁盘。( )
  32. Hadoop1.0和2.0都具备完善的HDFS HA策略。()
  33. GZIP压缩算法比LZO更快。()
  34. PIG是脚本语言,它与mapreduce无关。()

 

  来源:http://bbs.tianya.cn/post-414-51446-1.shtml 

转载于:https://www.cnblogs.com/jsunday/p/3788751.html

  • 7
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值