单选
-
Hadoop作者是( )
A. Martin Fowler
B. Kent Beck
C. Doug cutting
D. Bruce Eckel
-
大数据的数据量现在已经达到了哪个级别?( )
A. GB
B. TB
C. PB
D. ZB
-
2003年,Google公司发表了主要讲解海量数据的可靠存储方法的论文是?( )
A. “The Google File System”
B. “MapReduce: Simplified Data Processing on Large Clusters”
C. “Bigtable: A Distributed Storage System for Structured Data”
D. “The Hadoop File System”
-
2004年,Google公司发表了主要讲解海量数据的高效计算方法的论文是?( )
A. “The Google File System”
B. “MapReduce: Simplified Data Processing on Large Clusters”
C. “Bigtable: A Distributed Storage System for Structured Data”
D. “The Hadoop File System”
-
2006年,Google公司发表了用来处理海量数据的一种非关系型数据库的论文是?( )
A. “The Google File System”
B. “MapReduce: Simplified Data Processing on Large Clusters”
C. “Bigtable: A Distributed Storage System for Structured Data”
D. “The Hadoop File System”
-
对于GFS架构,下面哪个说法是错误的?( )
A. GFS Master节点管理所有的文件系统所有数据块。
B. GFS存储的文件都被分割成固定大小的块,每个块都会被复制到多个块服务器上(可靠性)。块的冗余度默认为3。
C. GFS Master还管理着系统范围内的活动,比如块服务器之间的数据迁移等
D. GFS Master与每个块服务器通信(发送心跳包),发送指令,获取状态
-
下面哪个选项不是HDFS架构的组成部分?( )
A. NameNode
B. DataNode
C. SecondaryNameNode
D. GFS
-
狭义的Hadoop是一个适合大数据分布式存储和分布式计算的平台,不包括下面哪个组件?( )
A. HDFS
B. MapReduce
C. Yarn
D. HBase
-
与Hadoop 1.x相比,Hadoop 2.x采用全新的架构,最明显的变化就是增加了哪个组件?( )
A. MapReduce
B. Pig
C. HBase
D. Yarn
-
建立在Hadoop文件系统之上的分布式的列式数据库?( )
A. HBase
B. Hive
C. YARN
D. Mahout
-
下面哪个选项不属于Google的三驾马车?( )
A. HDFS
B. MapReduce
C. BigTable
D. GFS
-
下列哪项通常是集群的最主要的性能瓶颈
A. CPU
B. 网络
C. 磁盘
D. 内存
-
下列哪个不是Hadoop运行的模式
A. 单机版
B. 伪分布式
C. 分布式
D. 联机模式
-
Hadoop版本演进过程中,Hadoop2.0比Hadoop1.0有了很多的优化,下面哪项不属于Hadoop2.0?( )
A. 加入HDFS的 NameNode Federation和YARN
B. YARN基于cgroup的内存和磁盘IO隔离
C. 支持NameNode HA
D. Wire-compatibility特性
-
Hadoop版本演进过程中,Hadoop3.0比Hadoop2.0有了很多的优化,下面哪项不属于Hadoop3.0?( )
A. JDK版本的最低依赖从1.7变成了1.8
B. 支持多个Standby状态的NameNode
C. 支持NameNode HA
D. datanode内部添加了负载均衡
-
Hadoop更适合哪些场景?( )
A. 离线分析
B. 复杂数据
C. 少量数据
D. 在线分析
-
下图是GFS的架构图,图中标(*)的地方应该是?( )
A. HRegionServer
B. HMaster
C. TabletServer
D. ChunkServer
多选
-
下面哪些是大数据的基本特征?( )
A. 数据体量大
B. 数据类型多
C. 处理速度快
D. 价值密度低
-
Hadoop能够使用户轻松开发和运行处理大数据的应用程序,那它主要有下面哪些特点( )
A. 高可靠性
B. 高扩展性
C. 高效性
D. 高容错性
-
在思维方式方面,大数据完全颠覆了传统的思维方式?( )
A. 全羊而非抽样
B. 效率而非精确
C. 相关而非因果
D. 演绎推理而非归纳总结
-
Hadoop大数据有哪两大核心技术?( )
A. 分布式存储
B. 数据采集
C. 可视化
D. 分布式处理
判断
-
Google的在大数据解决方案是开源的。
A. True
B. False
-
GFS分布式文件系统有两个基本组成部分,一个是客户端(Client),一个是服务端(Server)
A. True
B. False
-
上传的数据块保存在GFS上,在保存过程中需要水平复制,水平复制需要考虑两个要求:可靠性. 可用性
A. True
B. False
-
HDFS的采用了“分而治之”的思想。
A. True
B. False
-
MapReduce是的最早提出是Google为了解决PageRank的问题
A. True
B. False
-
Hbase是非关系型数据库,是面向列的。
A. True
B. False
-
如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。( )
A. True
B. False
-
Hadoop是Java开发的,所以MapReduce只支持Java语言编写( )
A. True
B. False
-
Hadoop支持数据的随机写。( )
A. True
B. False
-
Hadoop1.0和2.0都具备完善的HDFS HA策略。(×)
A. True
B. False
-
Hadoop源自始于2002年的Apache Lucene项目( )
A. True
B. False
-
Google的论文《Google File System》提到:还依赖一个高可用的. 序列化的分布式锁服务组件,叫Chubby( )
A. True
B. False
-
Region Server是Google的论文《Bigtable:一个分布式的结构化数据存储系统》中描述的BigTable的组成部分( )
A. True
B. False
-
Google的GFS论文是主要是为了解决PageRank(网页排名)的问题( )
A. True
B. False
问答
-
请描述 Hadoop 副本冗余存储策略(机架感知)。
答:
默认为副本数为3
第一个副本:放置在上传文件的数据节点;如果是集群外提交,则随机挑选一台磁盘不太满. CPU不太忙的节点。
第二个副本:放置在与第一个副本不同的机架的节点上。
第三个副本:与第二个副本相同机架的其他节点上。
更多副本:随机节点
-
什么是Failover?
答:
Failover是指故障切换,一个主节点失效而无法运作时,另一个节点可自动接手原失效系统所执行的工作。
-
从组成上,描述MapReduce 1 与MapReduce 2的区别:
答:
(1)作业调度和任务监控在MapReduce1中由JobTracker完成。在MapReduce2中,作业调动由ResourceManager完成。任务监控由Application Master完成。
(2)MapReduce1的TaskTracker与MapReduce2的NodeManager职责类似。
(3)资源调配单元在MapReduce1是Slot,而在YARN中是Container。
-
请先图形描述Hadoop生态圈的主要组成,再用文字简单描述各个组成。
答:
生态圈图如下:
各个组成如下:
HDFS: 分布式文件系统
YARN: 资源管理和调度器
MapReduce: 分布式并行编程模型
HBase: Hadoop上的非关系型的分布式数据库
Hive: Hadoop上的数据仓库
Pig :一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin
Flume: 一个高可用的,高可靠的,分布式的海量日志采集. 聚合和传输的系统
Sqoop: 用于在Hadoop与传统数据库之间进行数据传递
Zookeeper: 提供分布式协调一致性服务
Ambari Hadoop:快速部署工具,支持Apache Hadoop集群的供应. 管理和监控
Mahout 提供一些可扩展的机器学习领域经典算法的实现。