课堂测试1
一、单项选择题
1、 数据就是没有固定结构的数据。各种文档、图片、视频/音频等都属于它。 (1.0分)
A、结构化
B、非结构化
C、半结构化
D、异结构化
答案:B
解析:--
2、 HDFS中的文件在物理上是分 存储。 (1.0分)
A、片
B、区
C、层
D、块
答案:D
解析:--
3、 将数据存储在HDFS上时,它会将给定的数据内部分割为数据块,并以分布的方式将其存储在Hadoop集群中, 负责管理元数据。 (1.0分)
A、NameNode
B、DataNode
C、SecondaryNode
D、TreeNode
答案:A
解析:--
4、 下面哪个选项不属于Google的三驾马车?( ) (1.0分)
A、GFS
B、MapReduce
C、HDFS
D、BigTable
答案:C
解析:--
5、 以下哪一项不属于Hadoop的特性( ) (1.0分)
A、高可靠性
B、高扩展性
C、高实时性
D、高容错性
答案:C
解析:--
6、 下列Amazon的云数据库属于关系数据库的是 。 (1.0分)
A、Amazon Redshift
B、 Amazon RDS
C、Amazon DynamoDB
D、Amazon SimpleDB
答案:B
解析:--
7、 下列数据库属于文档数据库的是 。 (1.0分)
A、MongoDB
B、Redis
C、Neo4j
D、HBASE
答案:A
解析:--
8、 以下对各类数据库的理解错误的是 。 (1.0分)
A、键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等
B、 文档数据库的数据是松散的,XML和JSON文档等都可以作为数据存储在文档数据库中
C、 HBase数据库是列族数据库,可扩展性强,支持事务一致性
D、 图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱
答案:C
解析:--
二、不定项选择题
1、 常见的半结构化数据有 (2.0分)
A、图片文件
B、JSON文件
C、XML文件
D、视频文件
答案:BC
解析:--
2、 大数据有哪些特性 (2.0分)
A、数据量大
B、数据种类多
C、计算速度快
D、价值密度高
答案:ABC
解析:--
3、 大数据两大核心技术是 (2.0分)
A、分布式存储
B、数据可视化
C、数据采集
D、分布式处理
答案:AD
解析:--
4、 下列关于HDFS对文件分块存储的描述正确的是( ) (2.0分)
A、有利于负载均衡
B、有利于并行处理
C、能对大量小文件进行高效处理
D、可以随机访问数据
答案:AB
解析:--
5、 关于NoSQL数据库和关系数据库,下列说法正确的是 。 (2.0分)
A、 大多数NoSQL数据库很难实现数据完整性
B、 关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础
C、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力
D、NoSQL数据库和关系数据库各有优缺点,彼此无法取代
答案:ABCD
解析:--
6、 以下哪些是HDFS存储数据的优点 。 (2.0分)
A、高容错性
B、适合批处理
C、适合大数据处理
D、适合实时处理
答案:ABC
解析:--
7、关于SecondaryNameNode的说法,下面正确的是( )
(2.0分)
A、SecondaryNameNode应与NameNode部署到一个节点上
B、它是NameNode的冷备份
C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间
D、管理文件系统文件的元数据信息
答案:BC
解析:--
8、下面对于HBase的描述哪些是正确的( ) (2.0分)
A、是开源的
B、是面向列的
C、是分布式的
D、是一种NoSQL数据库
答案:ABCD
解析:--
三、判断题
1、 HBase是建立在Hadoop文件系统之上的分布式行式数据库。 (1.0分)
答案:错误
解析:--
2、使用delete命令可以将HBASE中的一张表进行删除操作。 (1.0分)
答案:错误
解析:--
3、FSImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。 (1.0分)
答案:正确
解析:--
4、BigTable是用来处理海量数据的一种关系型数据库。( ) (1.0分)
答案:错误
解析:--
5、Google公司的GFS是开源的。( ) (1.0分)
答案:错误
解析:--
6、海量数据就是大数据。( ) (1.0分)
答案:错误
解析:--
四、问答题
1、 并不是在任何场景下,“NoSQL”系列数据库都优于传统的关系型数据库。请思考:一般来说,在哪些情况下,比较适合使用“NoSQL”系列数据库?
(5.0分)
答案: 并不是任何场景,“NoSQL”系列数据库都优于传统的关系型数据库,一般来说,在以下情况下,比较适合使用“NoSQL”系列数据库:
1)数据库表的schema经常变化
2)数据库表字段是复杂数据类型
3)海量数据的分布式存储
4)高并发数据库请求
解析:--
2、 (1)在HBase中,每个HRegion Server维护一个HLog,而不是每个HRegion一个。请说明这种做法的优点和缺点。
(2)当一台HRegionServer意外终止时,主服务器HMaster如何发现这种意外终止情况?为了恢复这台发生意外的HRegionServer上的HRegion,HMaster应该做出哪些处理(包括如何使用HLog进行恢复)?
(5.0分)
答案:--
解析:--
课堂测试2
一、单项选择题
1、 在使用MapReduce程序WordCount进行词频统计时,对于文本行 “hello world hello spark”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式( )。
(1.0分)
A、<"hello",1>、<"hello",1>、<"spark",1>、<"world",1>
B、<"hello",2>、<"spark",1>、<"world",1>
C、<"hello",<1,1>>、<"spark",1>、<"world",1>
D、<"hello",1,1>、<"spark",1>、<"world",1>
答案:A
解析:--
2、下列关于MapReduce工作流程,说法错误的是( ) (1.0分)
A、设计理念是“计算向数据靠拢”
B、采用了Master/Slave的架构
C、不同的Map任务之间不会进行通信
D、不同的Reduce任务之间会发生信息交换
答案:D
解析:--
3、MapReduce的一个基本设计思想是( ) (1.0分)
A、数据向计算靠拢
B、计算向数据靠拢
C、提高数据的冗余度
D、提高数据的串行计算速度
答案:B
解析:--
4、 下列哪个程序通常与NameNode在同一个节点启动( ) (1.0分)
A、TaskTracker
B、JobTracker
C、DataNode
D、SecondaryNameNode
答案:B
解析:--
5、以下对YARN描述不正确的是( ) (1.0分)
A、YARN可以支持除了MapReduce外的其他计算框架
B、YARN可以为上层应用提供统一的资源管理和调度
C、YARN的ResourceManager组件可以实现作业调度和任务监控
D、NodeManager是YARN架构的组成部分
答案:C
解析:--
6、下面哪个操作肯定是宽依赖( ) (1.0分)
A、Map
B、filter
C、flatMap
D、reduceByKey()
答案:D
解析:--
7、 在Spark中,task运行下面哪个选项中的Executor上的工作单元( ) (1.0分)
A、Driver Program
B、Master
C、Worker Node
D、ResourceManager
答案:C
解析:--
二、不定项选择题
1、对MapReduce的体系结构,以下说法正确的是( ) (2.0分)
A、分布式编程架构
B、分而治之的思想
C、将一个任务分解成多个子任务
D、计算向数据靠拢
答案:ABCD
解析:--
2、MapReduce的执行过程包括如下哪些阶段( ) (2.0分)
A、从分布式文件系统读入数据
B、执行Map任务输出中间结果经过Shuffle阶段保存至分布式文件系统中
C、Reduce端将需各自处理的分区数据取回
D、执行Reduce任务得到最终结果并写入至分布式文件系统中
答案:ACD
解析:--
3、Hive数据仓库中的数据,可能的来源有哪些( ) (2.0分)
A、MySQL或Oracle数据库
B、业务数据系统
C、文档资料
D、HDFS中的数据
答案:ABCD
解析:--
4、关于RDD论述正确的是( ) (2.0分)
A、RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集
B、RDD的主要操作类型是Action和Transform
C、RDD是只读存储
D、RDD读取的数据都存储在一台机器上
答案:ABC
解析:--
5、Spark设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成了一套生态系统,它可以支持的操作计算包括如下哪些( ) (2.0分)
A、流式计算
B、图计算
C、SQL查询
D、机器学习
答案:ABCD
解析:--
三、判断题
1、MapReduce的Shuffle包括Map端的Shuffle和Reduce端的Shuffle。 (1.0分)
答案:正确
解析:--
2、YARN中的Container是资源的抽象,封装了某个节点上多维度资源。 (1.0分)
答案:正确
解析:--
3、Map的主要工作是将多个任务的计算结果进行汇总。 (1.0分)
答案:错误
解析:--
4、Hive是一个可以存储和处理数据的数据仓库,通过输入类似SQL的语句完成对数据的查询分析。 (1.0分)
答案:错误
解析:--
5、在spark中,对RDD的transformation操作,是延迟执行的( ) (1.0分)
答案:正确
解析:--
6、Spark支持的开发语言有Java、Scala和Python。( ) (1.0分)
答案:正确
解析:--
7、MapReduce采用的是“分散任务,汇总结果”的思想。 (1.0分)
答案:正确
解析:--
8、Spark是基于内存的计算引擎,因此经过其计算的所有的数据都在内存中( )。 (1.0分)
答案:错误
解析:--