Hadoop大数据入门练习题

最新推荐文章于 2024-04-22 17:27:57 发布

weixin_30532759

最新推荐文章于 2024-04-22 17:27:57 发布

阅读量2.8k

点赞数 7

文章标签：大数据 java 运维

原文链接：http://www.cnblogs.com/jsunday/p/3788751.html

版权

　　1. 下面哪个程序负责HDFS数据存储。
　　a) NameNode
　　b) Jobtracker
　　c) Datanode √（完成数据存储）
　　d) secondaryNameNode
　　e) tasktracker

　　2. HDfS中的block默认保存几份？
　　a) 3份√（hdfs-site.xml设置dfs.replication）
　　b) 2份
　　c) 1份
　　d) 不确定

　　3. 下列哪个程序通常与NameNode在一个节点启动？
　　a) SecondaryNameNode
　　b) DataNode
　　c) TaskTracker
　　d) Jobtracker√

　　4. Hadoop作者
　　a) Martin Fowler
　　b) Kent Beck
　　c) Doug cutting√

　　5. HDFS默认Block Size
　　a) 32MB
　　b) 64MB√
　　c) 128MB

　　有hdfs-site.xml,设置

<property>
<name>dfs.block.size</name>
<value>67108864</value>
<description>The default block size for new files.</description>
</property>
　　6. 下列哪项通常是集群的最主要的性能瓶颈
　　a) CPU
　　b) 网络（次之，数据传输）
　　c) 磁盘√（IO读写）
　　d) 内存

　　7. 关于SecondaryNameNode哪项是正确的？
　　a) 它是NameNode的热备
　　b) 它对内存没有要求
　　c) 它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√
　　d) SecondaryNameNode应与NameNode部署到一个节点

　　8. 一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？
　　a) 1
　　b) 2√（hadoop上传的文件超过block设置，都会分开存储，只是在处理时会作为一个split处理，是由压缩方式决定的，不支持并行处理（分割））
　　c) 3
　　d) 4

　　9. HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？
　　a) 64MB
　　b) 75MB√（同上）
　　c) 一个map读取64MB，另外一个map读取11MB

　　10. HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？
　　a) 64MB
　　b) 75MB
　　c) 一个map读取64MB，另外一个map读取11MB√（LZO支持分割。）
附：LZO压缩

* 解压简单，速度非常快。

* 解压不需要内存。

* 压缩相当地快。

* 压缩需要 64 kB 的内存。

* 允许在压缩部分以损失压缩速度为代价提高压缩率，解压速度不会降低。

* 包括生成预先压缩数据的压缩级别，这样可以得到相当有竞争力的压缩比。

* 另外还有一个只需要 8 kB 内存的压缩级别。

* 算法是线程安全的。

* 算法是无损的。

LZO 支持重复压缩以及原地解压。

LZO 是块压缩算法——压缩解压成块的数据。压缩与解压所用块的大小必须一样。

　　多选题：

　　11. 下列哪项可以作为集群的管理工具
　　a) Puppet√ http://baike.baidu.com/view/1794764.htm?fr=aladdin
　　b) Pdsh√ http://scmbob.org/parallel-distributed-shell.html
　　c) Cloudera Manager√ http://caozs.blog.51cto.com/707029/1223346
　　d) Rsync + ssh + scp√ http://baike.baidu.com/view/1183189.htm?fr=aladdin

　　12. 配置机架感知的下面哪项正确
　　a) 如果一个机架出问题，不会影响数据读写√
　　b) 写入数据的时候会写到不同机架的DataNode中√
　　c) MapReduce会根据机架获取离自己比较近的网络数据√

　　13. Client端上传文件的时候下列哪项正确
　　a) 数据经过NameNode传递给DataNode
　　b) Client端将文件以Block为单位，管道方式依次传到DataNode√
　　c) Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作
　　d) 当某个DataNode失败，客户端会继续传给其它DataNode √

　　14. 下列哪个是Hadoop运行的模式
　　a) 单机版√
　　b) 伪分布式√
　　c) 分布式√

　　15. Cloudera提供哪几种安装CDH的方法 http://www.infoq.com/cn/articles/hadoop-ten-best-practice
　　a) Cloudera manager√
　　b) Tar ball√
　　c) Yum√
　　d) Rpm√

　　判断题：（全部错）
　　16. Ganglia不仅可以进行监控，也可以进行告警（不会）。（）http://duanple.blog.163.com/blog/static/70971767201183092413177/
　　17. Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（）

http://baike.baidu.com/view/1111497.htm?fr=aladdin
　　18. 如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（不会）
　　19. Cloudera CDH是需要付费使用的。（）免费使用，服务收费
　　20. Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（不是）
　　21. Hadoop支持数据的随机写。（不支持）
　　22. NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。（内存）
　　23. NameNode本地磁盘保存了Block的位置信息。（仅保留元信息，由datanode上报）
　　24. Slave节点要存储数据，所以它的磁盘越大越好。（）
　　25. Hadoop默认调度器策略为FIFO，并支持多个Pool提交Job。（）
　　26. 集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（ no）
　　27. 因为HDFS有多个副本，所以NameNode是不存在单点问题的。（）
　　28. 每个map槽就是一个线程。（ no,）
　　29. Mapreduce的input split就是一个block。（ nno）
　　30. Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200MB。（）

Hadoop为各个守护进程分配的内存大小”，默认为1000MB，当然实际的肯定需要你根据集群实际情况来设定！分配过大的话，可能会影响整个集群对数据处理的效率，分配过小，可能会导致守护进程异常，进而影响到整个集群的正常运行。
　　31. DataNode首次加入cluster的时候，如果log中报告不兼容文件版本，那需要NameNode执行“hadoop namenode -format”操作格式化磁盘。（）
　　32. Hadoop1.0和2.0都具备完善的HDFS HA策略。（）
　　33. GZIP压缩算法比LZO更快。（）
　　34. PIG是脚本语言，它与mapreduce无关。（）

　　来源：http://bbs.tianya.cn/post-414-51446-1.shtml

转载于:https://www.cnblogs.com/jsunday/p/3788751.html

weixin_30532759

关注

7
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Hadoop大数据入门练习题

　　1. 下面哪个程序负责HDFS数据存储。　　a) NameNode　　b) Jobtracker　　c) Datanode √（完成数据存储）　　d) secondaryNameNode　　e) tasktracker　　2. HDfS中的block默认保存几份？　　a) 3份√（hdfs-site.xml设置dfs.replication）　　b) 2份　　c) 1份　　d) 不确定　　3....
复制链接

扫一扫