大数据计算模式有以下四种,对电子商务网站购物平台数据的实时分析处理过程属于哪一种?
- A. 批处理计算
- B. 图计算
- C. 查询分析计算
- D. 流计算
我的答案: D正确答案: D
10分
2. (单选题)单选(2分)
大数据技术及其代表性的软件种类很多,不同的技术有其不同应用场景,都对应着不同的大数据计算模式,请问软件产品Pregel主要应用于以下哪种计算模式?
- A. 流计算
- B. 查询分析计算
- C. 图计算
- D. 批处理计算
我的答案: C正确答案: C
10分
3. (单选题)单选(2分)
Hadoop生态系统中用于构建数据仓库并允许用户输入SQL语句进行查询的功能组件是?
- A. Flume
- B. Spark
- C. Hive
- D. Pregel
我的答案: C正确答案: C
10分
4. (单选题)单选(2分)
以下哪一项不是Hadoop的缺点?
- A. 数据文件被分布存储到多台机器上
- B. 计算表达能力有限
- C. 磁盘I/O开销大
- D. 计算延迟高
我的答案: A正确答案: A
10分
5. (单选题)单选(2分)
用户在使用HDFS时,仍然可以像普通文件系统那样用文件名去访问文件,以下哪个选项是正确的访问方式?
- A. 把文件名发送给数据节点,根据文件名直接在数据节点上获取数据
- B. 以上说法都不对
- C. 把文件名发送给名称节点,根据文件名在名称节点上找到数据块的实际存储的位置信息,客户端再根据位置信息到数据节点上获取数据
- D. 把文件名发送给名称节点,根据文件名直接在名称节点上获取数据
我的答案: C正确答案: C
10分
二. 多选题(共5题,50分)
6. (多选题)
大数据处理的基本流程有以下哪四个步骤?
- A. 数据采集
- B. 处理分析
- C. 结果呈现
- D. 存储管理
我的答案: ABCD正确答案: ABCD
10分
7. (多选题)目前学术界和业界比较认可的关于大数据的四个特点是?
- A. 数据量大
- B. 价值密度低
- C. 数据类型多
- D. 处理速度快
我的答案: ABCD正确答案: ABCD
10分
8. (多选题)与Hadoop相比,Spark主要有以下哪些优点?
- A. 提供多种数据集操作类型而不仅限于MapReduce
- B. 基于DAG的任务调度执行机制
- C. 数据集中式计算更加高效
- D. 提供了内存计算,带来了更高的迭代运算效率
我的答案: ABD正确答案: ABD
10分
9. (多选题)YARN是负责集群资源调度管理的组件。不同的计算框架统一运行在YARN框架之上,具有哪些优点:
- A. 共享底层存储,避免数据跨集群迁移
- B. 大大降低了运维成本
- C. 计算资源按需伸缩
- D. 不同负载应用混搭,集群利用率高
我的答案: ABCD正确答案: ABCD
10分
10. (多选题)关于Hadoop生态系统中HBase与其它部分的关系,以下说法正确的有:
- A. 使用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力
- B. HBase利用MapReduce来处理HBase中的海量数据,实现高性能计算
- C. 使用Sqoop为HBase提供了高效便捷的RDBMS数据导入功能
- D. 利用Pig和Hive为HBase提供了高层语言支持
我的答案: ABCD正确答案: ABCD
1. (单选题)下面哪个不是 RDD 的特点 ?
- A. 可分区
- B. 可序列化
- C. 可修改
- D. 可持久化
我的答案: C正确答案: C
10分
2. (单选题)Task是Executor上的工作单元,运行于下面哪个组件上?
- A. Driver Program
- B. Spark Master
- C. Worker Node
- D. Cluster Manager
我的答案: C正确答案: C
10分
3. (单选题)下面哪个操作肯定是宽依赖?
- A. map
- B. filter
- C. reduceByKey
- D. union
我的答案: C正确答案: C
10分
4. (单选题)以下哪个不是Spark的组件?
- A. Spark Streaming
- B. MLlib
- C. GraphX
- D. Flink
我的答案: D正确答案: D
10分
二. 多选题(共6题,60分)
5. (多选题)
以下是Spark的主要特点的有?