阶段性测试二

1.DataFrame 和 RDD 最大的区别 【 正确答案: B】
A.科学统计支持
B.多了 schema
C.存储方式不一样
D.外部数据源支持

2.关于累加器,下面哪个是错误的? 【 正确答案: D】
A.支持加法
B.支持数值类型
C.可并行
D.不支持自定义类型

3.关于广播变量,下面哪个是错误的? 【 正确答案: D】
A.任何函数调用
B.是只读的
C.存储在各个节点
D.存储在磁盘或HDFS

4.Spark默认的存储级别是 【 正确答案: A】
A. MEMORY_ONLY
B. MEMORY_ONLY_SER
C. MEMORY_AND_DISK
D. MEMORY_AND_DISK_SER

5.下列哪个不是 RDD 的缓存方法()? 【 正确答案: C】
A. persist()
B. Cache()
C. Memory()
D. 以上都不是

6.Spark 的集群部署模式不包括 【 正确答案: D】
A. standalone
B. spark on mesos
C. spark on YARN
D. Local

7.下面哪个操作肯定是宽依赖? 【 正确答案: C】
A. map
B. flatMap
C. reduceByKey
D. sample

8.下面哪个操作是窄依赖? 【 正确答案: B】
A. join
B. filter
C. group
D. sort

9.下面哪个不是 RDD 的特点? 【 正确答案: C】
A. 可分区
B. 可序列化
C. 可修改
D. 可持久化

10.Task 运行在下面哪里个选项中 Executor 上的工作单元? 【 正确答案: C】
A. Driver program
B. spark master
C. worker node
D. Cluster manager

11.以下哪个不是Spark的组件? 【 正确答案: B】
A.DAGScheduler
B.MultiScheduler
C.TaskScheduler
D.SparkContext

12.下面与Zookeeper类似的框架是 【 正确答案: B】
A.Protobuf
B.Chubby
C.Kafka
D.Java

13.spark 的 master 和 worker 通过什么方式进行通信的? 【 正确答案: D】
A.http
B.nio
C.netty
D.Akka

14.Stage的Task 的数量由什么决定? 【 正确答案: A】
A.Partition
B.Job
C.Stage
D.TaskScheduler

15.下面哪个端口不是 spark 自带服务的端口 ? 【 正确答案: C】
A.8080
B.4040
C.8090
D.18080

16.对于(Set)进行操作”Set(3,0,1)+2+2-2“后的结果是 【 正确答案: B】
A.Set(3,0,1,2)
B.Set(3,0,1)
C.Set(3,0)
D.以上都不正确

17.下面 【 正确答案: D】不是spark 的四大组件。
A.MLlib
B.Graph X
C.Spark Streaming
D.Spark R

1.以下关于List的定义,()是正确的。 【 正确答案: A B D】
A.val list=List(12,2,3)
B.val list=List(“Hello World”)
C.val list:String=List(“A”,“B”,“C”)
D.val list=List()

2.要读取people.json文件生成DataFrame,可以使用下列哪些命令? 【 正确答案: A C】
A. spark.read.json(“people.json”)
B. spark.read.text(“people.json”)
C. spark.read.format(“json”).load(“people.json”
D. spark.read.format(“csv”).load(“people.json”)

3.spark的特点包括【 正确答案: A B D】
A. 快速
B. 通用
C. 可延伸
D. 兼容性

4.下面关于Spark MLlib库的描述正确的是 【 正确答案: A C】
A.MLlib库从1.2版本以后分为两个包:spark.mllib和spark.ml
B.spark.mllib包含基于DataFrame的原始算法API
C.spark.mllib包含基于RDD的原始算法API
D.spark.ml则提供了基于RDD的、高层次的API

5.SparkStreaming的基本输入源有哪几种 【 正确答案: A C D】
A. 文件流
B. kafk
C. 套接字流
D. RDD队列流

6.流计算的处理流程 【 正确答案: B C D】
A. 实时数据存储
B.实时数据计算
C.实时查询服务
D.实时数据采集

7.从RDD转换得到DataFrame包含两种典型的方法,分别是 【 正确答案: A B】
A.利用反射机制推断RDD模式
B.使用编程方式定义RDD模式
C.利用投影机制推断RDD模式
D.利用互联网机制推断RDD模式

8.RDD有哪些缺陷? 【 正确答案: A D】
A. 不支持细粒度的写和更新操作(如网络爬虫)
B. 基于内存的计算
C. 拥有schema信息
D. 不支持增量迭代计算

9.SparkContext可以从哪些位置读取数据 ? 【 正确答案: A C D】
A.本地磁盘
B.web
C.hdfs
D.内存

10.Spark driver的功能是 【 正确答案: A B D】
A. 是作业的主进程
B. 负责了作业的调度
C. 负责向HDFS申请资源
D. 负责作业的解析

11.YARN是负责集群资源调度管理的组件。不同的计算框架统一运行在YARN框架之上,具有哪些优点?
【 正确答案: A B C D】
A. 计算资源按需伸缩
B. 不同负载应用混搭,集群利用
C. 共享底层存储,避免数据跨集群迁移
D. 大大降低了运维成本

12.与hadoop相比,Spark主要有以下哪些优点? 【 正确答案: A B C D】
A.提供多种数据集操作类型而不仅限于MapReduce
B.提供了内存计算,带来了更高的迭代运算效率
C.基于DAG的任务调度执行机制
D.数据集中式计算而更加高效

13.以下哪些属于 Kafka 的使用场景? 【 正确答案: A B C D】
A.异步处理
B.应用解耦
C.流量削峰
D.日志处理

1.Spark SQL 使用【 正确答案: format( )】方法可以手动指定数据源,在指定数据源的同时,可以使用【 正确答案: option( )】方法向指定的数据源传递所需参数

2.Spark 有多种运行模式,可以运行在一台机器上,称为本地(单机)模式;也可以以 YARN 或 Mesos 作为底层资源调度系统以分布式的方式在集群中运行,称为【 正确答案: Spark On YARN 模式】;还可以使用 Spark 自带的资源调度系统,称为【 正确答案: Spark Standalone 模式】

3.Spark Streaming 接收【 正确答案: 实时输入】的数据流,并将数据流以【 正确答案: 时间片(秒级)】为单位拆分成批次,然后将每个批次交给 Spark 引擎(或 Spark Core)进行处理,最终生成以批次组成的结果数据流。

4.RDD 可以通过两种方式创建,一种是 Spark 可以通过【 正确答案: parallelize( )】或【 正确答案: makeRDD( )】方法 将一个对象集合转化为 RDD;另一种是【 正确答案: textFile( )】方法可以读取本地文件系统或外部其它系统中的数据,并创建 RDD。

5.Spark SQL支持读取【 正确答案: text】、【 正确答案: json】、【 正确答案: parquet】类型的文件。

1.构造数据Schema模式不可以添加数据的列名称。 (❌)

2.Kafka 的一个主题可以横跨多个服务器。 (✔)

3.Spark ML提供两种类型的transformers:特征transformer和机器学习模型。 (✔)

4.Spark Streaming支持RDD的所有算子。 (✔)

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值