Hadoop复习（一）

最新推荐文章于 2024-09-26 17:10:31 发布

哇卡拉卡咸鱼

最新推荐文章于 2024-09-26 17:10:31 发布

阅读量704

点赞数 25

文章标签：大数据 hadoop 学习

本文链接：https://blog.csdn.net/m0_64948681/article/details/140894825

版权

单选

Hadoop作者是（）

A. Martin Fowler

B. Kent Beck

C. Doug cutting

D. Bruce Eckel

大数据的数据量现在已经达到了哪个级别？（）

A. GB

B. TB

C. PB

D. ZB

2003年，Google公司发表了主要讲解海量数据的可靠存储方法的论文是？（）

A. “The Google File System”

B. “MapReduce: Simplified Data Processing on Large Clusters”

C. “Bigtable: A Distributed Storage System for Structured Data”

D. “The Hadoop File System”

2004年，Google公司发表了主要讲解海量数据的高效计算方法的论文是？（）

A. “The Google File System”

B. “MapReduce: Simplified Data Processing on Large Clusters”

C. “Bigtable: A Distributed Storage System for Structured Data”

D. “The Hadoop File System”

2006年，Google公司发表了用来处理海量数据的一种非关系型数据库的论文是?（）

A. “The Google File System”

B. “MapReduce: Simplified Data Processing on Large Clusters”

C. “Bigtable: A Distributed Storage System for Structured Data”

D. “The Hadoop File System”

对于GFS架构，下面哪个说法是错误的？（）

A. GFS Master节点管理所有的文件系统所有数据块。

B. GFS存储的文件都被分割成固定大小的块，每个块都会被复制到多个块服务器上（可靠性）。块的冗余度默认为3。

C. GFS Master还管理着系统范围内的活动，比如块服务器之间的数据迁移等

D. GFS Master与每个块服务器通信（发送心跳包），发送指令，获取状态

下面哪个选项不是HDFS架构的组成部分？（）

A. NameNode

B. DataNode

C. SecondaryNameNode

D. GFS

狭义的Hadoop是一个适合大数据分布式存储和分布式计算的平台，不包括下面哪个组件？（）

A. HDFS

B. MapReduce

C. Yarn

D. HBase

与Hadoop 1.x相比，Hadoop 2.x采用全新的架构，最明显的变化就是增加了哪个组件？（）

A. MapReduce

B. Pig

C. HBase

D. Yarn

建立在Hadoop文件系统之上的分布式的列式数据库？（）

A. HBase

B. Hive

C. YARN

D. Mahout

下面哪个选项不属于Google的三驾马车？（）

A. HDFS

B. MapReduce

C. BigTable

D. GFS

下列哪项通常是集群的最主要的性能瓶颈

A. CPU

B. 网络

C. 磁盘

D. 内存

下列哪个不是Hadoop运行的模式

A. 单机版

B. 伪分布式

C. 分布式

D. 联机模式

Hadoop版本演进过程中，Hadoop2.0比Hadoop1.0有了很多的优化，下面哪项不属于Hadoop2.0？（）

A. 加入HDFS的 NameNode Federation和YARN

B. YARN基于cgroup的内存和磁盘IO隔离

C. 支持NameNode HA

D. Wire-compatibility特性

Hadoop版本演进过程中，Hadoop3.0比Hadoop2.0有了很多的优化，下面哪项不属于Hadoop3.0？（）

A. JDK版本的最低依赖从1.7变成了1.8

B. 支持多个Standby状态的NameNode

C. 支持NameNode HA

D. datanode内部添加了负载均衡

Hadoop更适合哪些场景？（）

A. 离线分析

B. 复杂数据

C. 少量数据

D. 在线分析

下图是GFS的架构图，图中标(*)的地方应该是？（）

A. HRegionServer

B. HMaster

C. TabletServer

D. ChunkServer

多选

下面哪些是大数据的基本特征？（）

A. 数据体量大

B. 数据类型多

C. 处理速度快

D. 价值密度低

Hadoop能够使用户轻松开发和运行处理大数据的应用程序，那它主要有下面哪些特点（）

A. 高可靠性

B. 高扩展性

C. 高效性

D. 高容错性

在思维方式方面，大数据完全颠覆了传统的思维方式？（）

A. 全羊而非抽样

B. 效率而非精确

C. 相关而非因果

D. 演绎推理而非归纳总结

Hadoop大数据有哪两大核心技术？（）

A. 分布式存储

B. 数据采集

C. 可视化

D. 分布式处理

判断

Google的在大数据解决方案是开源的。

A. True

B. False

GFS分布式文件系统有两个基本组成部分，一个是客户端（Client），一个是服务端（Server）

A. True

B. False

上传的数据块保存在GFS上，在保存过程中需要水平复制，水平复制需要考虑两个要求：可靠性. 可用性

A. True

B. False

HDFS的采用了“分而治之”的思想。

A. True

B. False

MapReduce是的最早提出是Google为了解决PageRank的问题

A. True

B. False

Hbase是非关系型数据库，是面向列的。

A. True

B. False

如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（）

A. True

B. False

Hadoop是Java开发的，所以MapReduce只支持Java语言编写（）

A. True

B. False

Hadoop支持数据的随机写。（）

A. True

B. False

Hadoop1.0和2.0都具备完善的HDFS HA策略。（×）

A. True

B. False

Hadoop源自始于2002年的Apache Lucene项目( )

A. True

B. False

Google的论文《Google File System》提到：还依赖一个高可用的. 序列化的分布式锁服务组件，叫Chubby( )

A. True

B. False

Region Server是Google的论文《Bigtable：一个分布式的结构化数据存储系统》中描述的BigTable的组成部分( )

A. True

B. False

Google的GFS论文是主要是为了解决PageRank（网页排名）的问题( )

A. True

B. False

问答

请描述 Hadoop 副本冗余存储策略(机架感知)。

答：

默认为副本数为3

第一个副本：放置在上传文件的数据节点；如果是集群外提交，则随机挑选一台磁盘不太满. CPU不太忙的节点。

第二个副本：放置在与第一个副本不同的机架的节点上。

第三个副本：与第二个副本相同机架的其他节点上。

更多副本：随机节点

什么是Failover？

答：

Failover是指故障切换，一个主节点失效而无法运作时，另一个节点可自动接手原失效系统所执行的工作。

从组成上，描述MapReduce 1 与MapReduce 2的区别:

答：

（1）作业调度和任务监控在MapReduce1中由JobTracker完成。在MapReduce2中，作业调动由ResourceManager完成。任务监控由Application Master完成。

（2）MapReduce1的TaskTracker与MapReduce2的NodeManager职责类似。

（3）资源调配单元在MapReduce1是Slot，而在YARN中是Container。

请先图形描述Hadoop生态圈的主要组成，再用文字简单描述各个组成。

答：

生态圈图如下：

各个组成如下：

HDFS：分布式文件系统

YARN：资源管理和调度器

MapReduce：分布式并行编程模型

HBase： Hadoop上的非关系型的分布式数据库

Hive： Hadoop上的数据仓库

Pig ：一个基于Hadoop的大规模数据分析平台，提供类似SQL的查询语言Pig Latin

Flume：一个高可用的，高可靠的，分布式的海量日志采集. 聚合和传输的系统

Sqoop：用于在Hadoop与传统数据库之间进行数据传递

Zookeeper：提供分布式协调一致性服务

Ambari Hadoop：快速部署工具，支持Apache Hadoop集群的供应. 管理和监控

Mahout 提供一些可扩展的机器学习领域经典算法的实现。

哇卡拉卡咸鱼

关注

25
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫