大数据第二章Hadoop习题

最新推荐文章于 2024-07-28 16:45:11 发布

夜上夏叶

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量1.6k

点赞数 2

分类专栏：大数据文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/jinyeran/article/details/126559633

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本系列习题来自henu教师PPT及测试

一、PPT习题：

1、启动hadoop所有进程的命令是:

A.start-hdfs.sh B.start-all.sh C.start-dfs.sh D.start-hadoop.sh

B

start-all.sh
启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack
stop-all.sh
停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack
start-dfs.sh
启动Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
stop-dfs.sh
停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode

2、以下对Hadoop的说法错误的是：

A.Hadoop是基于Java语言开发的，只支持Java语言编程

B.Hadoop的核心是HDFS和MapReduce

C.Hadoop MapReduce是针对谷歌MapReduce的开源实现，通常用于大规模数据集的并行计算

D.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性

A、Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中，支持多种编程语言

3、以下名词解释错误的是:

A.Hive：一个基于Hadoop的数据仓库工具，用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储

B.HDFS：分布式文件系统，是Hadoop项目的两大核心之一，是谷歌GFS的开源实现

C.HBase：提供高可靠性、高性能、分布式的行式数据库，是谷歌BigTable的开源实现

D.Zookeeper：针对谷歌Chubby的一个开源实现，是高效可靠的协同工作系统

C 列式数据库

4、以下哪些组件不是Hadoop的生态系统的组件：

A.HDFS

B.Oracle

C.HBase

D.MapReduce

B

二、测试习题：

1、Hive是Hadoop上的()

A、非关系型的分布式数据库

B、工作流管理系统

C、数据仓库

D、流计算框架

C hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制

2、hadoop dfs只能适用于()文件系统

A、Windows

B、HDFS

C、本地

D、Linux

B Hadoop实际上有三种shell命令方式：hadoop fs/hadoop dfs/hdfs dfs

hadoop fs适用于任何不同的文件系统

hadoop dfs只能适用于HDFS文件系统

hdfs dfs也只能适用于HDFS文件系统

3、Hadoop是基于Python语言开发的，具有很好的跨平台性。

× Java开发

4、试述Hadoop的项目结构以及每个部分的具体功能。

Commeon是为Hadoop其他子项目提供支持的常用工具，主要包括文件系统、RPC和串行化库。

Avro是为Hadoop的子项目，用于数据序列化的系统，提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。

HDFS是Hadoop项目的两个核心之一，它是针对谷歌文件系统的开源实现。

HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库，一般采用HDFS作为其底层数据存储。

MapReduce是针对谷歌MapReduce的开源实现，用于大规模数据集的并行运算。

Zoookepper是针对谷歌Chubby的一个开源实现，是高效和可靠的协同工作系统，提供分布式锁之类的基本服务，用于构建分布式应用，减轻分布式应用程序所承担的协调任务。

Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。

Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。

Sqoop可以改进数据的互操作性，主要用来在H大哦哦哦配合关系数据库之间交换数据。

Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合Hadoop处理的文件，并保存在HDFS中供Hadoop进行各种 MapReduce操作。