大数据技术练习(课堂检测)

课堂测试1

一、单项选择题

1、      数据就是没有固定结构的数据。各种文档、图片、视频/音频等都属于它。    (1.0分)

A、结构化

B、非结构化

C、半结构化

D、异结构化

答案:B

解析:--

2、 HDFS中的文件在物理上是分    存储。   (1.0分)

A、片

B、区

C、层

D、块

答案:D

解析:--

3、 将数据存储在HDFS上时,它会将给定的数据内部分割为数据块,并以分布的方式将其存储在Hadoop集群中,       负责管理元数据。   (1.0分)

A、NameNode

B、DataNode

C、SecondaryNode

D、TreeNode

答案:A

解析:--

4、 下面哪个选项不属于Google的三驾马车?(    (1.0分)

A、GFS

B、MapReduce

C、HDFS

D、BigTable

答案:C

解析:--

5、 以下哪一项不属于Hadoop的特性(  )   (1.0分)

A、高可靠性

B、高扩展性

C、高实时性

D、高容错性

答案:C

解析:--

6、 下列Amazon的云数据库属于关系数据库的是          (1.0分)

A、Amazon Redshift

B、 Amazon RDS

C、Amazon DynamoDB

D、Amazon SimpleDB

答案:B

解析:--

7、 下列数据库属于文档数据库的是      。   (1.0分)

A、MongoDB

B、Redis

C、Neo4j

D、HBASE

答案:A

解析:--

8、 以下对各类数据库的理解错误的是       。   (1.0分)

A、键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等

B、 文档数据库的数据是松散的,XML和JSON文档等都可以作为数据存储在文档数据库中

C、 HBase数据库是列族数据库,可扩展性强,支持事务一致性

D、 图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱

答案:C

解析:--

二、不定项选择题

1、 常见的半结构化数据有          (2.0分)

A、图片文件

B、JSON文件

C、XML文件

D、视频文件

答案:BC

解析:--

2、 大数据有哪些特性         (2.0分)

A、数据量大

B、数据种类多

C、计算速度快

D、价值密度高

答案:ABC

解析:--

3、 大数据两大核心技术是         (2.0分)

A、分布式存储

B、数据可视化

C、数据采集

D、分布式处理

答案:AD

解析:--

4、 下列关于HDFS对文件分块存储的描述正确的是(  )   (2.0分)

A、有利于负载均衡

B、有利于并行处理

C、能对大量小文件进行高效处理

D、可以随机访问数据

答案:AB

解析:--

5、 关于NoSQL数据库和关系数据库,下列说法正确的是           (2.0分)

A、 大多数NoSQL数据库很难实现数据完整性

B、 关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础

C、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力

D、NoSQL数据库和关系数据库各有优缺点,彼此无法取代

答案:ABCD

解析:--

6、 以下哪些是HDFS存储数据的优点         (2.0分)

A、高容错性

B、适合批处理

C、适合大数据处理

D、适合实时处理

答案:ABC

解析:--

7、关于SecondaryNameNode的说法,下面正确的是(   )

   (2.0分)

A、SecondaryNameNode应与NameNode部署到一个节点上

B、它是NameNode的冷备份

C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间

D、管理文件系统文件的元数据信息

答案:BC

解析:--

8、下面对于HBase的描述哪些是正确的(   )   (2.0分)

A、是开源的

B、是面向列的

C、是分布式的

D、是一种NoSQL数据库

答案:ABCD

解析:--

三、判断题

1、 HBase是建立在Hadoop文件系统之上的分布式行式数据库。   (1.0分)

答案:错误

解析:--

2、使用delete命令可以将HBASE中的一张表进行删除操作。   (1.0分)

答案:错误

解析:--

3、FSImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。   (1.0分)

答案:正确

解析:--

4、BigTable是用来处理海量数据的一种关系型数据库。(   )   (1.0分)

答案:错误

解析:--

5、Google公司的GFS是开源的。(   )   (1.0分)

答案:错误

解析:--

6、海量数据就是大数据。(   )   (1.0分)

答案:错误

解析:--

四、问答题

1、 并不是在任何场景下,“NoSQL”系列数据库都优于传统的关系型数据库。请思考:一般来说,在哪些情况下,比较适合使用“NoSQL”系列数据库?

   (5.0分)

答案: 并不是任何场景,“NoSQL”系列数据库都优于传统的关系型数据库,一般来说,在以下情况下,比较适合使用“NoSQL”系列数据库:

1)数据库表的schema经常变化

2)数据库表字段是复杂数据类型

3)海量数据的分布式存储

4)高并发数据库请求

解析:--

2、 (1)在HBase中,每个HRegion Server维护一个HLog,而不是每个HRegion一个。请说明这种做法的优点和缺点。

(2)当一台HRegionServer意外终止时,主服务器HMaster如何发现这种意外终止情况?为了恢复这台发生意外的HRegionServer上的HRegion,HMaster应该做出哪些处理(包括如何使用HLog进行恢复)?

   (5.0分)

答案:--

解析:--

课堂测试2

一、单项选择题

1、 在使用MapReduce程序WordCount进行词频统计时,对于文本行 “hello world hello spark”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式(  )。

   (1.0分)

A、<"hello",1>、<"hello",1>、<"spark",1>、<"world",1>

B、<"hello",2>、<"spark",1>、<"world",1>

C、<"hello",<1,1>>、<"spark",1>、<"world",1>

D、<"hello",1,1>、<"spark",1>、<"world",1>

答案:A

解析:--

2、下列关于MapReduce工作流程,说法错误的是(  )   (1.0分)

A、设计理念是“计算向数据靠拢”

B、采用了Master/Slave的架构

C、不同的Map任务之间不会进行通信

D、不同的Reduce任务之间会发生信息交换

答案:D

解析:--

3、MapReduce的一个基本设计思想是(   )   (1.0分)

A、数据向计算靠拢

B、计算向数据靠拢

C、提高数据的冗余度

D、提高数据的串行计算速度

答案:B

解析:--

4、 下列哪个程序通常与NameNode在同一个节点启动( )   (1.0分)

A、TaskTracker

B、JobTracker

C、DataNode

D、SecondaryNameNode

答案:B

解析:--

5、以下对YARN描述不正确的是(   )   (1.0分)

A、YARN可以支持除了MapReduce外的其他计算框架

B、YARN可以为上层应用提供统一的资源管理和调度

C、YARN的ResourceManager组件可以实现作业调度和任务监控

D、NodeManager是YARN架构的组成部分

答案:C

解析:--

6、下面哪个操作肯定是宽依赖(  )   (1.0分)

A、Map

B、filter

C、flatMap

D、reduceByKey()

答案:D

解析:--

7、 在Spark中,task运行下面哪个选项中的Executor上的工作单元(   )   (1.0分)

A、Driver Program

B、Master

C、Worker Node

D、ResourceManager

答案:C

解析:--

二、不定项选择题

1、对MapReduce的体系结构,以下说法正确的是(  )   (2.0分)

A、分布式编程架构

B、分而治之的思想

C、将一个任务分解成多个子任务

D、计算向数据靠拢

答案:ABCD

解析:--

2、MapReduce的执行过程包括如下哪些阶段(  )   (2.0分)

A、从分布式文件系统读入数据

B、执行Map任务输出中间结果经过Shuffle阶段保存至分布式文件系统中

C、Reduce端将需各自处理的分区数据取回

D、执行Reduce任务得到最终结果并写入至分布式文件系统中

答案:ACD

解析:--

3、Hive数据仓库中的数据,可能的来源有哪些(   )   (2.0分)

A、MySQL或Oracle数据库

B、业务数据系统

C、文档资料

D、HDFS中的数据

答案:ABCD

解析:--

4、关于RDD论述正确的是(  )   (2.0分)

A、RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集

B、RDD的主要操作类型是Action和Transform

C、RDD是只读存储

D、RDD读取的数据都存储在一台机器上

答案:ABC

解析:--

5、Spark设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成了一套生态系统,它可以支持的操作计算包括如下哪些(   )   (2.0分)

A、流式计算

B、图计算

C、SQL查询

D、机器学习

答案:ABCD

解析:--

三、判断题

1、MapReduce的Shuffle包括Map端的Shuffle和Reduce端的Shuffle。   (1.0分)

答案:正确

解析:--

2、YARN中的Container是资源的抽象,封装了某个节点上多维度资源。   (1.0分)

答案:正确

解析:--

3、Map的主要工作是将多个任务的计算结果进行汇总。   (1.0分)

答案:错误

解析:--

4、Hive是一个可以存储和处理数据的数据仓库,通过输入类似SQL的语句完成对数据的查询分析。   (1.0分)

答案:错误

解析:--

5、在spark中,对RDD的transformation操作,是延迟执行的(  )   (1.0分)

答案:正确

解析:--

6、Spark支持的开发语言有Java、Scala和Python。(   )   (1.0分)

答案:正确

解析:--

7、MapReduce采用的是“分散任务,汇总结果”的思想。   (1.0分)

答案:正确

解析:--

8、Spark是基于内存的计算引擎,因此经过其计算的所有的数据都在内存中(    )。   (1.0分)

答案:错误

解析:--

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值