一、选择题
1.下面哪一个不是Spark 的组件。
A.Spark Streaming
B.Mlib
C.Graphx
D.Spark R
2.下面哪个不是 RDD 的特点( )
A.可分区
B.可序列化
C.可修改
D.可持久化
3.Spark 支持的分布式部署方式中哪个是错误的 ( )
A.standalone
B.spark on mesos
C.spark on YARN
D.Spark on local
4.下面哪个操作是窄依赖 ( )
A.join
B.filter
C.group
D.sort
5.下面哪个操作肯定是宽依赖 ( )
A.map
B.flatMap
C.reduceByKey
D.sample
6.Task 运行在下来哪里个选项中 Executor 上的工作单元 ( )
A.Driver program
B.spark master
C.worker node
D.Cluster manager
7.下面哪一个不是Spark比mapreduce快的原因( )
A.基于内存计算
B.基于DAG高效的调度算法
C.基于磁盘计算
D.容错机制Linage
8.下面哪一个不是Hadoop框架的缺陷( )
A.表达能力有限,MR编程框架的限制
B.过多的磁盘操作,缺乏对分布式内存的支持
C.无法高效的支持迭代式计算
D.海量的数据存储
9.下面哪一个不是spark的特点( )
A.快速
B.代码繁琐
C.易用性
D.通用性
10.下面哪一个不是Spark driver的功能( )
A.作业的主进程
B.负责作业的调度
C.负责向HDFS申请资源
D.负责作业的解析