Hadoop与大数据技术-CSDN博客

本文链接：https://blog.csdn.net/m0_64391998/article/details/128213735

单选题

1.单选题（2分）

下列选项中哪一门技术属于大数据平台（）。

A.Tomcat

B.Hadoop

C.ASP.NET

D.Apache 【答案】B

2.单选题（2分）

以下哪一项不属于 Hadoop可以运行的模式

A.单机（本地）模式

B.伪分布式模式

C.互联模式

D.分布式模式【答案】C

3.单选题（2分）下列哪个程序通常与 NameNode 在同一个节点启动

A.TaskTracker

B.DataNode

C.SecondaryNameNode

D.Jobtracker 【答案】D

4.单选题（2分）配置 Hadoop时，JAVA_HOME包含在哪一个配置文件中 A.hadoop-default.xml

B.hadoop-env.sh

C.hadoop-site.xml

D.configuration.xsl 【答案】B

5.单选题（2分）下面哪个程序负责 HDFS 数据存储。

A.NameNode

B.Jobtracker

C.Datanode

D.secondaryNameNode 【答案】C

6.单选题（2分） HDFS 中的 block 默认保存几个备份。

A.3 份

B.2 份

C.1 份

D.不确定【答案】A

7.单选题（2分）下面哪个进程负责 MapReduce 任务调度。

A.NameNode

B.Jobtracker

C.TaskTracker

D.secondaryNameNode 【答案】B

8.单选题（2分）在实验集群的 master节点使用 jps命令查看进程时，终端出现以下哪项能说明 Hadoop主节点启动成功？ A.Namenode,Datanode, TaskTracker B.Namenode,Datanode, secondaryNameNode C.Namenode,Datanode, HMaster D.Namenode,JobTracker, secondaryNameNode 【答案】D

9.单选题（2分）若不针对 MapReduce编程模型中的 key和 value值进行特别设置，下列哪一项是 MapReduce不适宜的运算。

A. Max

B.Min

C.Count

D.Average 【答案】D

10.单选题（2分） MapReduce编程模型，键值对的 key必须实现哪个接口？ A.WritableComparable

B.Comparable

C.Writable

D.LongWritable 【答案】A

11.单选题（2分）以下哪一项属于非结构化数据。

A.企业 ERP 数据

B.财务系统数据

C.视频监控数据

D.日志数据【答案】C

12.单选题（2分） HBase是分布式列式存储系统，记录按什么集中存放。

A.列族

B.列

C.行

D.不确定【答案】A

13.单选题（2分）下列哪个程序通常与 NameNode 在同一个节点启动

A.TaskTracker

B.DataNode

C.SecondaryNameNode

D.Jobtracker 【答案】D

14.单选题（2分）下列哪项通常是集群的最主要瓶颈

A.CPU

B.网络

C.磁盘 IO

D.内存【答案】C

15.单选题（2分）下列关于 MapReduce说法不正确的是

A.MapReduce 是一种计算框架

B.MapReduce 来源于 google 的学术论文

C.MapReduce 程序只能用 java 语言编写 D.MapReduce 隐藏了并行计算的细节，方便使用【答案】C

16.单选题（2分） HDFS 默认 Block Size的大小是

A.32MB

B.64MB

C.128MB

D.256M 【答案】B

17.单选题（2分）下列关于 MapReduce说法不正确的是

A.MapReduce 是一种计算框架

B.MapReduce 来源于 google 的学术论文 C.MapReduce 程序只能用 java 语言编写 D.MapReduce 隐藏了并行计算的细节，方便使用【答案】C

18.单选题（2分） HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是

A.一次写入，少次读

B.多次写入，少次读

C.多次写入，多次读

D.一次写入，多次读【答案】D

19.单选题（2分） HBase依靠______存储底层数据

A.HDFS

B.Hadoop

C.Memory

D.MapReduce 【答案】A

20.单选题（2分） HBase依赖______提供强大的计算能力。

A.Zookeeper

B.Chubby

C.RPC

D.MapReduce 【答案】D

21.单选题（2分） HBase依赖______提供消息通信机制

A.Zookeeper

B.Chubby

C.RPC

D.Socket 【答案】A

22.单选题（2分）大数据的特点不包括下面哪一项

A.巨大的数据量

B.多结构化数据

C.增长速度快

D.价值密度高【答案】D

23.单选题（2分）以下哪个命令，可以查询 Hive创建表的语句

A.show create table tableName

B.show tables

C.show table info tableName

D.show tableName 【答案】A

24.单选题（2分）如果需要对 HBase表中的数据进行列表查询

A.count

B.scan

C.put

D.get 【答案】B

25.单选题（2分）如果对 HBase表的添加数据记录，可以使用

A.create

B.get

C.put

D.scan 【答案】C

多选题 26.多选题（3分）对 Hadoop中 JobTacker的工作角色，以下说法正确的是（）。

A.作业调度

B.分配任务

C.监控 CPU 运行效率

D.监控任务执行进度【答案】ABD

27.多选题（3分） Hadoop生态系统的优势包含（）。

A.高扩展

B.低成本

C.开源工具成熟

D.大型关系数据库系统【答案】ABC

28.多选题（3分）大数据技术方案为了简化并行分布式计算，采用（）软件模块进行处理。 A.Java

B.Map

C.Reduce

D.SQL 【答案】BC

29.多选题（3分） Hadoop核心组成部份包含（）

A.HDFS 存储系统

B.Hive 数据仓库 C.MapReduce 运算框架 D.HBase 分布式数据库【答案】AC

30.多选题（3分）以下哪些工具属于 Hadoop生态系统的开源工具。（）

A.Hive

B.Hbase

C.Mysql

D.Zookerper 【答案】ABD

31.多选题（3分） HDFS的适用性和局限性，以下说法正确的是（）

A.适合数据批量读写、吞吐量高

B.不适合交互式应用，低延迟很难满足

C.适合一次写入多次读取、顺序读写

D.不支持多用户并发写相同文件【答案】ABCD

32.多选题（3分） HDFS与传统数据存储对比，主要特点包含（）。

A.数据冗余，硬件容错

B.流式的数据访问

C.适合存储大量小文件

D.适合存储大量大文件【答案】ABD

33.多选题（3分） HDFS中的 NameNode节点用于存放元数据，数据内容包含（）。

A.文件与数据块的映射表

B.每个数据块的内容

C.数据块与数据节点的映射表

D.客户端硬件配置数据【答案】AC

34.多选题（3分）对 HDFS内的文件进行操作，以下说法正确的是（）。 A.HDFS 提供了 Shell 的操作接口

B.不允许对文件进行列表查看

C.文件操作命令与 Linux 相似

D.采用 Windows 系统对文件进行操作【答案】AC

35.多选题（3分） Hadoop存储系统 HDFS的体系结构的设计目标包含（）

A.自动检测处理硬件错误

B.流式访问数据

C.转移计算，不移动数据位置

D.简单数据一致性模型【答案】ABCD

简答题

36.简答题（1分）简述 Spark实时处理的流程【答案】 Spark Streaming接收 Kafka、Flume、HDFS等各种来源的实时输入数据，进行处理后，处理结构保存在 HDFS、DataBase等各种地方。

37.简答题（1分）什么是关系数据库？什么是非关系型数据库？【答案】关系型数据库是依据关系模型来创建的数据库。所谓关系模型就是“一对一、一对多、多对多”等关系模型，关系模型就是指二维表格模型,因而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。非关系型数据库主要是基于“非关系模型”的数据库。效率高(因为存储在内存中)、但不安全(断电丢失数据，但其中 redis可以同步数据到磁盘中)，现在很多非关系型数据库都开始支持转存到磁盘中。

判断题

38.判断题（2分） Hadoop是 IBM公司开发的一款商用大数据软件。【答案】 ×

39.判断题（2分） Hadoop是一个能够对大量数据进行分布式处理的软件框架，能够处理 PB 级数据。【答案】✓

40.判断题（2分） Hadoop存储系统 HDFS的文件是分块存储，每个文件块默认大小为 32MB。【答案】×

41.判断题（2分） HDFS系统为了容错保证数据块完整性，每一块数据都采用 2份副本（）【答案】×

42.判断题（2分） HDFS系统采用 NameNode定期向 DataNode发送心跳消息，用于检测系统是否正常运行。（）【答案】×

43.判断题（2分）用户可以通过” hadoop fs –put ”命令获取远端文件数据（）。【答案】×

44.判断题（2分）在 Hadoop中每个应用程序被表示成一个作业，每个作业又被分成多个任务，JobTracker的负责作业的分解、状态监控以及资源管理。【答案】✓

45.判断题（2分） Map的主要工作是将多个任务的计算结果进行汇总。【答案】 ×

46.判断题（2分） Python经常被称作“胶水语言”，因为它能够轻易地操作其他程序，轻易地包装使用其他语言编写的库【答案】✓

47.判断题（0分） Python支持命令式编程。不支持函数式编程【答案】×