本系列习题来自henu教师PPT及测试
一、PPT习题:
1、启动hadoop所有进程的命令是:
A.start-hdfs.sh B.start-all.sh C.start-dfs.sh D.start-hadoop.sh
B
- start-all.sh
启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack- stop-all.sh
停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack- start-dfs.sh
启动Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode- stop-dfs.sh
停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
2、以下对Hadoop的说法错误的是:
A.Hadoop是基于Java语言开发的,只支持Java语言编程
B.Hadoop的核心是HDFS和MapReduce
C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算
D.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
A、Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中,支持多种编程语言
3、 以下名词解释错误的是:
A.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
B.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
C.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
D.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
C 列式数据库
4、以下哪些组件不是Hadoop的生态系统的组件:
A.HDFS
B.Oracle
C.HBase
D.MapReduce
B
二、测试习题:
1、Hive是Hadoop上的()
A、非关系型的分布式数据库
B、工作流管理系统
C、数据仓库
D、流计算框架
C hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制
2、hadoop dfs只能适用于()文件系统
A、Windows
B、HDFS
C、本地
D、Linux
B Hadoop实际上有三种shell命令方式:hadoop fs/hadoop dfs/hdfs dfs
hadoop fs适用于任何不同的文件系统
hadoop dfs只能适用于HDFS文件系统
hdfs dfs也只能适用于HDFS文件系统
3、Hadoop是基于Python语言开发的,具有很好的跨平台性。
× Java开发
4、试述Hadoop的项目结构以及每个部分的具体功能。
Commeon是为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、RPC和串行化库。
Avro是为Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。
HDFS是Hadoop项目的两个核心之一,它是针对谷歌文件系统的开源实现。
HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。
MapReduce是针对谷歌MapReduce的开源实现,用于大规模数据集的并行运算。
Zoookepper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。
Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。
Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。
Sqoop可以改进数据的互操作性,主要用来在H大哦哦哦配合关系数据库之间交换数据。
Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop进行各种 MapReduce操作。