大数据技术练习（课堂检测）

星星可明

于 2025-01-07 20:21:40 发布

阅读量855

点赞数 23

文章标签：大数据

本文链接：https://blog.csdn.net/m0_73808124/article/details/144992842

版权

课堂测试1

一、单项选择题

1、数据就是没有固定结构的数据。各种文档、图片、视频/音频等都属于它。 (1.0分)

A、结构化

B、非结构化

C、半结构化

D、异结构化

答案:B

解析:--

2、 HDFS中的文件在物理上是分存储。 (1.0分)

A、片

B、区

C、层

D、块

答案:D

解析:--

3、将数据存储在HDFS上时，它会将给定的数据内部分割为数据块，并以分布的方式将其存储在Hadoop集群中，负责管理元数据。 (1.0分)

A、NameNode

B、DataNode

C、SecondaryNode

D、TreeNode

答案:A

解析:--

4、下面哪个选项不属于Google的三驾马车？（） (1.0分)

A、GFS

B、MapReduce

C、HDFS

D、BigTable

答案:C

解析:--

5、以下哪一项不属于Hadoop的特性（） (1.0分)

A、高可靠性

B、高扩展性

C、高实时性

D、高容错性

答案:C

解析:--

6、下列Amazon的云数据库属于关系数据库的是。 (1.0分)

A、Amazon Redshift

B、 Amazon RDS

C、Amazon DynamoDB

D、Amazon SimpleDB

答案:B

解析:--

7、下列数据库属于文档数据库的是。 (1.0分)

A、MongoDB

B、Redis

C、Neo4j

D、HBASE

答案:A

解析:--

8、以下对各类数据库的理解错误的是。 (1.0分)

A、键值数据库的键是一个字符串对象，值可以是任意类型的数据，比如整型和字符型等

B、文档数据库的数据是松散的，XML和JSON文档等都可以作为数据存储在文档数据库中

C、 HBase数据库是列族数据库，可扩展性强，支持事务一致性

D、图数据库灵活性高，支持复杂的图算法，可用于构建复杂的关系图谱

答案:C

解析:--

二、不定项选择题

1、常见的半结构化数据有 (2.0分)

A、图片文件

B、JSON文件

C、XML文件

D、视频文件

答案:BC

解析:--

2、大数据有哪些特性 (2.0分)

A、数据量大

B、数据种类多

C、计算速度快

D、价值密度高

答案:ABC

解析:--

3、大数据两大核心技术是 (2.0分)

A、分布式存储

B、数据可视化

C、数据采集

D、分布式处理

答案:AD

解析:--

4、下列关于HDFS对文件分块存储的描述正确的是（） (2.0分)

A、有利于负载均衡

B、有利于并行处理

C、能对大量小文件进行高效处理

D、可以随机访问数据

答案:AB

解析:--

5、关于NoSQL数据库和关系数据库，下列说法正确的是。 (2.0分)

A、大多数NoSQL数据库很难实现数据完整性

B、关系数据库有关系代数理论作为基础，NoSQL数据库没有统一的理论基础

C、NoSQL数据库可以支持超大规模数据存储，具有强大的横向扩展能力

D、NoSQL数据库和关系数据库各有优缺点，彼此无法取代

答案:ABCD

解析:--

6、以下哪些是HDFS存储数据的优点。 (2.0分)

A、高容错性

B、适合批处理

C、适合大数据处理

D、适合实时处理

答案:ABC

解析:--

7、关于SecondaryNameNode的说法，下面正确的是（）

(2.0分)

A、SecondaryNameNode应与NameNode部署到一个节点上

B、它是NameNode的冷备份

C、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间

D、管理文件系统文件的元数据信息

答案:BC

解析:--

8、下面对于HBase的描述哪些是正确的（） (2.0分)

A、是开源的

B、是面向列的

C、是分布式的

D、是一种NoSQL数据库

答案:ABCD

解析:--

三、判断题

1、 HBase是建立在Hadoop文件系统之上的分布式行式数据库。 (1.0分)

答案:错误

解析:--

2、使用delete命令可以将HBASE中的一张表进行删除操作。 (1.0分)

答案:错误

解析:--

3、FSImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。 (1.0分)

答案:正确

解析:--

4、BigTable是用来处理海量数据的一种关系型数据库。（） (1.0分)

答案:错误

解析:--

5、Google公司的GFS是开源的。（） (1.0分)

答案:错误

解析:--

6、海量数据就是大数据。（） (1.0分)

答案:错误

解析:--

四、问答题

1、并不是在任何场景下，“NoSQL”系列数据库都优于传统的关系型数据库。请思考：一般来说，在哪些情况下，比较适合使用“NoSQL”系列数据库？

(5.0分)

答案: 并不是任何场景，“NoSQL”系列数据库都优于传统的关系型数据库，一般来说，在以下情况下，比较适合使用“NoSQL”系列数据库：

1）数据库表的schema经常变化

2）数据库表字段是复杂数据类型

3）海量数据的分布式存储

4）高并发数据库请求

解析:--

2、（1）在HBase中，每个HRegion Server维护一个HLog，而不是每个HRegion一个。请说明这种做法的优点和缺点。

（2）当一台HRegionServer意外终止时，主服务器HMaster如何发现这种意外终止情况？为了恢复这台发生意外的HRegionServer上的HRegion，HMaster应该做出哪些处理（包括如何使用HLog进行恢复）？

(5.0分)

答案:--

解析:--

课堂测试2

一、单项选择题

1、在使用MapReduce程序WordCount进行词频统计时，对于文本行 “hello world hello spark”，经过WordCount程序的Map函数处理后直接输出的中间结果，应该是下面哪种形式（）。

(1.0分)

A、<"hello",1>、<"hello",1>、<"spark",1>、<"world",1>

B、<"hello",2>、<"spark",1>、<"world",1>

C、<"hello",<1,1>>、<"spark",1>、<"world",1>

D、<"hello",1,1>、<"spark",1>、<"world",1>

答案:A

解析:--

2、下列关于MapReduce工作流程，说法错误的是（） (1.0分)

A、设计理念是“计算向数据靠拢”

B、采用了Master/Slave的架构

C、不同的Map任务之间不会进行通信

D、不同的Reduce任务之间会发生信息交换

答案:D

解析:--

3、MapReduce的一个基本设计思想是（） (1.0分)

A、数据向计算靠拢

B、计算向数据靠拢

C、提高数据的冗余度

D、提高数据的串行计算速度

答案:B

解析:--

4、下列哪个程序通常与NameNode在同一个节点启动（） (1.0分)

A、TaskTracker

B、JobTracker

C、DataNode

D、SecondaryNameNode

答案:B

解析:--

5、以下对YARN描述不正确的是（） (1.0分)

A、YARN可以支持除了MapReduce外的其他计算框架

B、YARN可以为上层应用提供统一的资源管理和调度

C、YARN的ResourceManager组件可以实现作业调度和任务监控

D、NodeManager是YARN架构的组成部分

答案:C

解析:--

6、下面哪个操作肯定是宽依赖（） (1.0分)

A、Map

B、filter

C、flatMap

D、reduceByKey()

答案:D

解析:--

7、在Spark中，task运行下面哪个选项中的Executor上的工作单元（） (1.0分)

A、Driver Program

B、Master

C、Worker Node

D、ResourceManager

答案:C

解析:--

二、不定项选择题

1、对MapReduce的体系结构，以下说法正确的是（） (2.0分)

A、分布式编程架构

B、分而治之的思想

C、将一个任务分解成多个子任务

D、计算向数据靠拢

答案:ABCD

解析:--

2、MapReduce的执行过程包括如下哪些阶段（） (2.0分)

A、从分布式文件系统读入数据

B、执行Map任务输出中间结果经过Shuffle阶段保存至分布式文件系统中

C、Reduce端将需各自处理的分区数据取回

D、执行Reduce任务得到最终结果并写入至分布式文件系统中

答案:ACD

解析:--

3、Hive数据仓库中的数据，可能的来源有哪些（） (2.0分)

A、MySQL或Oracle数据库

B、业务数据系统

C、文档资料

D、HDFS中的数据

答案:ABCD

解析:--

4、关于RDD论述正确的是（） (2.0分)

A、RDD提供一种高度受限的共享内存模型，是一个弹性分布式数据集

B、RDD的主要操作类型是Action和Transform

C、RDD是只读存储

D、RDD读取的数据都存储在一台机器上

答案:ABC

解析:--

5、Spark设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成了一套生态系统，它可以支持的操作计算包括如下哪些（） (2.0分)

A、流式计算

B、图计算

C、SQL查询

D、机器学习

答案:ABCD

解析:--

三、判断题

1、MapReduce的Shuffle包括Map端的Shuffle和Reduce端的Shuffle。 (1.0分)

答案:正确

解析:--

2、YARN中的Container是资源的抽象，封装了某个节点上多维度资源。 (1.0分)

答案:正确

解析:--

3、Map的主要工作是将多个任务的计算结果进行汇总。 (1.0分)

答案:错误

解析:--

4、Hive是一个可以存储和处理数据的数据仓库，通过输入类似SQL的语句完成对数据的查询分析。 (1.0分)

答案:错误

解析:--

5、在spark中，对RDD的transformation操作，是延迟执行的（） (1.0分)

答案:正确

解析:--

6、Spark支持的开发语言有Java、Scala和Python。（） (1.0分)

答案:正确

解析:--

7、MapReduce采用的是“分散任务，汇总结果”的思想。 (1.0分)

答案:正确

解析:--

8、Spark是基于内存的计算引擎，因此经过其计算的所有的数据都在内存中（）。 (1.0分)

答案:错误

解析:--