Hadoop复习(一)

单选

  1. Hadoop作者是( )

A. Martin Fowler

B. Kent Beck

C. Doug cutting

D. Bruce Eckel

  1. 大数据的数据量现在已经达到了哪个级别?( )

A. GB

B. TB

C. PB

D. ZB

  1. 2003年,Google公司发表了主要讲解海量数据的可靠存储方法的论文是?( )

A. “The Google File System”

B. “MapReduce: Simplified Data Processing on Large Clusters”

C. “Bigtable: A Distributed Storage System for Structured Data”

D. “The Hadoop File System”

  1. 2004年,Google公司发表了主要讲解海量数据的高效计算方法的论文是?( )

A. “The Google File System”

B. “MapReduce: Simplified Data Processing on Large Clusters”

C. “Bigtable: A Distributed Storage System for Structured Data”

D. “The Hadoop File System”

  1. 2006年,Google公司发表了用来处理海量数据的一种非关系型数据库的论文是?( )

A. “The Google File System”

B. “MapReduce: Simplified Data Processing on Large Clusters”

C. “Bigtable: A Distributed Storage System for Structured Data”

D. “The Hadoop File System”

  1. 对于GFS架构,下面哪个说法是错误的?( )

A. GFS Master节点管理所有的文件系统所有数据块。

B. GFS存储的文件都被分割成固定大小的块,每个块都会被复制到多个块服务器上(可靠性)。块的冗余度默认为3。

C. GFS Master还管理着系统范围内的活动,比如块服务器之间的数据迁移等

D. GFS Master与每个块服务器通信(发送心跳包),发送指令,获取状态

  1. 下面哪个选项不是HDFS架构的组成部分?( )

A. NameNode

B. DataNode

C. SecondaryNameNode

D. GFS

  1. 狭义的Hadoop是一个适合大数据分布式存储和分布式计算的平台,不包括下面哪个组件?( )

A. HDFS

B. MapReduce

C. Yarn

D. HBase

  1. 与Hadoop 1.x相比,Hadoop 2.x采用全新的架构,最明显的变化就是增加了哪个组件?( )

A. MapReduce

B. Pig

C. HBase

D. Yarn

  1. 建立在Hadoop文件系统之上的分布式的列式数据库?( )

A. HBase

B. Hive

C. YARN

D. Mahout

  1. 下面哪个选项不属于Google的三驾马车?( )

A. HDFS

B. MapReduce

C. BigTable

D. GFS

  1. 下列哪项通常是集群的最主要的性能瓶颈

A. CPU

B. 网络

C. 磁盘

D. 内存

  1. 下列哪个不是Hadoop运行的模式

A. 单机版

B. 伪分布式

C. 分布式

D. 联机模式

  1. Hadoop版本演进过程中,Hadoop2.0比Hadoop1.0有了很多的优化,下面哪项不属于Hadoop2.0?( )

A. 加入HDFS的 NameNode Federation和YARN

B. YARN基于cgroup的内存和磁盘IO隔离

C. 支持NameNode HA

D. Wire-compatibility特性

  1. Hadoop版本演进过程中,Hadoop3.0比Hadoop2.0有了很多的优化,下面哪项不属于Hadoop3.0?( )

A. JDK版本的最低依赖从1.7变成了1.8

B. 支持多个Standby状态的NameNode

C. 支持NameNode HA

D. datanode内部添加了负载均衡

  1. Hadoop更适合哪些场景?( )

A. 离线分析

B. 复杂数据

C. 少量数据

D. 在线分析

  1. 下图是GFS的架构图,图中标(*)的地方应该是?( )

A. HRegionServer

B. HMaster

C. TabletServer

D. ChunkServer

多选

  1. 下面哪些是大数据的基本特征?( )

A. 数据体量大

B. 数据类型多

C. 处理速度快

D. 价值密度低

  1. Hadoop能够使用户轻松开发和运行处理大数据的应用程序,那它主要有下面哪些特点( )

A. 高可靠性

B. 高扩展性

C. 高效性

D. 高容错性

  1. 在思维方式方面,大数据完全颠覆了传统的思维方式?( )

A. 全羊而非抽样

B. 效率而非精确

C. 相关而非因果

D. 演绎推理而非归纳总结

  1. Hadoop大数据有哪两大核心技术?( )

A. 分布式存储

B. 数据采集

C. 可视化

D. 分布式处理

判断

  1. Google的在大数据解决方案是开源的。

A. True

B. False

  1. GFS分布式文件系统有两个基本组成部分,一个是客户端(Client),一个是服务端(Server)

A. True

B. False

  1. 上传的数据块保存在GFS上,在保存过程中需要水平复制,水平复制需要考虑两个要求:可靠性. 可用性

A. True

B. False

  1. HDFS的采用了“分而治之”的思想。

A. True

B. False

  1. MapReduce是的最早提出是Google为了解决PageRank的问题

A. True

B. False

  1. Hbase是非关系型数据库,是面向列的。

A. True

B. False

  1. 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。( )

A. True

B. False

  1. Hadoop是Java开发的,所以MapReduce只支持Java语言编写( )

A. True

B. False

  1. Hadoop支持数据的随机写。( )

A. True

B. False

  1. Hadoop1.0和2.0都具备完善的HDFS HA策略。(×)

A. True

B. False

  1. Hadoop源自始于2002年的Apache Lucene项目( )

A. True

B. False

  1. Google的论文《Google File System》提到:还依赖一个高可用的. 序列化的分布式锁服务组件,叫Chubby( )

A. True

B. False

  1. Region Server是Google的论文《Bigtable:一个分布式的结构化数据存储系统》中描述的BigTable的组成部分( )

A. True

B. False

  1. Google的GFS论文是主要是为了解决PageRank(网页排名)的问题( )

A. True

B. False

问答

  1. 请描述 Hadoop 副本冗余存储策略(机架感知)。

答:

默认为副本数为3

第一个副本:放置在上传文件的数据节点;如果是集群外提交,则随机挑选一台磁盘不太满. CPU不太忙的节点。

第二个副本:放置在与第一个副本不同的机架的节点上。

第三个副本:与第二个副本相同机架的其他节点上。

更多副本:随机节点

  1. 什么是Failover?

答:

Failover是指故障切换,一个主节点失效而无法运作时,另一个节点可自动接手原失效系统所执行的工作。

  1. 从组成上,描述MapReduce 1 与MapReduce 2的区别:

答:

(1)作业调度和任务监控在MapReduce1中由JobTracker完成。在MapReduce2中,作业调动由ResourceManager完成。任务监控由Application Master完成。

(2)MapReduce1的TaskTracker与MapReduce2的NodeManager职责类似。

(3)资源调配单元在MapReduce1是Slot,而在YARN中是Container。

  1. 请先图形描述Hadoop生态圈的主要组成,再用文字简单描述各个组成。

答:

生态圈图如下:

各个组成如下:

HDFS: 分布式文件系统

YARN: 资源管理和调度器

MapReduce: 分布式并行编程模型

HBase: Hadoop上的非关系型的分布式数据库

Hive: Hadoop上的数据仓库

Pig :一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin

Flume: 一个高可用的,高可靠的,分布式的海量日志采集. 聚合和传输的系统

Sqoop: 用于在Hadoop与传统数据库之间进行数据传递

Zookeeper: 提供分布式协调一致性服务

Ambari Hadoop:快速部署工具,支持Apache Hadoop集群的供应. 管理和监控

Mahout 提供一些可扩展的机器学习领域经典算法的实现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值