阶段性测试二

ᯤ⁹ᴳ⁺ ·

于 2024-01-16 03:23:54 发布

阅读量379

点赞数 8

分类专栏：大数据存储与计算文章标签：大数据存储与计算

本文链接：https://blog.csdn.net/qq_63712292/article/details/135614692

版权

大数据存储与计算专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.DataFrame 和 RDD 最大的区别【正确答案: B】
A.科学统计支持
B.多了 schema
C.存储方式不一样
D.外部数据源支持

2.关于累加器，下面哪个是错误的？【正确答案: D】
A.支持加法
B.支持数值类型
C.可并行
D.不支持自定义类型

3.关于广播变量，下面哪个是错误的？【正确答案: D】
A.任何函数调用
B.是只读的
C.存储在各个节点
D.存储在磁盘或HDFS

4.Spark默认的存储级别是【正确答案: A】
A. MEMORY_ONLY
B. MEMORY_ONLY_SER
C. MEMORY_AND_DISK
D. MEMORY_AND_DISK_SER

5.下列哪个不是 RDD 的缓存方法（）？【正确答案: C】
A. persist(）
B. Cache()
C. Memory()
D. 以上都不是

6.Spark 的集群部署模式不包括【正确答案: D】
A. standalone
B. spark on mesos
C. spark on YARN
D. Local

7.下面哪个操作肯定是宽依赖？【正确答案: C】
A. map
B. flatMap
C. reduceByKey
D. sample

8.下面哪个操作是窄依赖？【正确答案: B】
A. join
B. filter
C. group
D. sort

9.下面哪个不是 RDD 的特点？【正确答案: C】
A. 可分区
B. 可序列化
C. 可修改
D. 可持久化

10.Task 运行在下面哪里个选项中 Executor 上的工作单元? 【正确答案: C】
A. Driver program
B. spark master
C. worker node
D. Cluster manager

11.以下哪个不是Spark的组件？【正确答案: B】
A.DAGScheduler
B.MultiScheduler
C.TaskScheduler
D.SparkContext

12.下面与Zookeeper类似的框架是【正确答案: B】
A.Protobuf
B.Chubby
C.Kafka
D.Java

13.spark 的 master 和 worker 通过什么方式进行通信的？【正确答案: D】
A.http
B.nio
C.netty
D.Akka

14.Stage的Task 的数量由什么决定？【正确答案: A】
A.Partition
B.Job
C.Stage
D.TaskScheduler

15.下面哪个端口不是 spark 自带服务的端口？【正确答案: C】
A.8080
B.4040
C.8090
D.18080

16.对于（Set）进行操作”Set（3，0，1）+2+2-2“后的结果是【正确答案: B】
A.Set（3，0，1，2）
B.Set（3，0，1）
C.Set（3，0）
D.以上都不正确

17.下面【正确答案: D】不是spark 的四大组件。
A.MLlib
B.Graph X
C.Spark Streaming
D.Spark R

1.以下关于List的定义，（）是正确的。【正确答案: A B D】
A.val list=List(12,2,3)
B.val list=List(“Hello World”)
C.val list:String=List(“A”,“B”,“C”)
D.val list=List()

2.要读取people.json文件生成DataFrame，可以使用下列哪些命令？【正确答案: A C】
A. spark.read.json(“people.json”)
B. spark.read.text(“people.json”)
C. spark.read.format(“json”).load(“people.json”
D. spark.read.format(“csv”).load(“people.json”)

3.spark的特点包括【正确答案: A B D】
A. 快速
B. 通用
C. 可延伸
D. 兼容性

4.下面关于Spark MLlib库的描述正确的是【正确答案: A C】
A.MLlib库从1.2版本以后分为两个包：spark.mllib和spark.ml
B.spark.mllib包含基于DataFrame的原始算法API
C.spark.mllib包含基于RDD的原始算法API
D.spark.ml则提供了基于RDD的、高层次的API

5.SparkStreaming的基本输入源有哪几种【正确答案: A C D】
A. 文件流
B. kafk
C. 套接字流
D. RDD队列流

6.流计算的处理流程【正确答案: B C D】
A. 实时数据存储
B.实时数据计算
C.实时查询服务
D.实时数据采集

7.从RDD转换得到DataFrame包含两种典型的方法，分别是【正确答案: A B】
A.利用反射机制推断RDD模式
B.使用编程方式定义RDD模式
C.利用投影机制推断RDD模式
D.利用互联网机制推断RDD模式

8.RDD有哪些缺陷? 【正确答案: A D】
A. 不支持细粒度的写和更新操作(如网络爬虫)
B. 基于内存的计算
C. 拥有schema信息
D. 不支持增量迭代计算

9.SparkContext可以从哪些位置读取数据 ? 【正确答案: A C D】
A.本地磁盘
B.web
C.hdfs
D.内存

10.Spark driver的功能是【正确答案: A B D】
A. 是作业的主进程
B. 负责了作业的调度
C. 负责向HDFS申请资源
D. 负责作业的解析

11.YARN是负责集群资源调度管理的组件。不同的计算框架统一运行在YARN框架之上，具有哪些优点？
【正确答案: A B C D】
A. 计算资源按需伸缩
B. 不同负载应用混搭，集群利用
C. 共享底层存储，避免数据跨集群迁移
D. 大大降低了运维成本

12.与hadoop相比，Spark主要有以下哪些优点？【正确答案: A B C D】
A.提供多种数据集操作类型而不仅限于MapReduce
B.提供了内存计算，带来了更高的迭代运算效率
C.基于DAG的任务调度执行机制
D.数据集中式计算而更加高效

13.以下哪些属于 Kafka 的使用场景？【正确答案: A B C D】
A.异步处理
B.应用解耦
C.流量削峰
D.日志处理

1.Spark SQL 使用【正确答案: format( )】方法可以手动指定数据源，在指定数据源的同时，可以使用【正确答案: option( )】方法向指定的数据源传递所需参数

2.Spark 有多种运行模式，可以运行在一台机器上，称为本地（单机）模式；也可以以 YARN 或 Mesos 作为底层资源调度系统以分布式的方式在集群中运行，称为【正确答案: Spark On YARN 模式】；还可以使用 Spark 自带的资源调度系统，称为【正确答案: Spark Standalone 模式】

3.Spark Streaming 接收【正确答案: 实时输入】的数据流，并将数据流以【正确答案: 时间片（秒级）】为单位拆分成批次，然后将每个批次交给 Spark 引擎（或 Spark Core）进行处理，最终生成以批次组成的结果数据流。

4.RDD 可以通过两种方式创建，一种是 Spark 可以通过【正确答案: parallelize( )】或【正确答案: makeRDD( )】方法将一个对象集合转化为 RDD；另一种是【正确答案: textFile( )】方法可以读取本地文件系统或外部其它系统中的数据，并创建 RDD。

5.Spark SQL支持读取【正确答案: text】、【正确答案: json】、【正确答案: parquet】类型的文件。

1.构造数据Schema模式不可以添加数据的列名称。（❌）

2.Kafka 的一个主题可以横跨多个服务器。（✔）

3.Spark ML提供两种类型的transformers：特征transformer和机器学习模型。（✔）

4.Spark Streaming支持RDD的所有算子。（✔）

ᯤ⁹ᴳ⁺ ·

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
阶段性测试二

3.Spark Streaming 接收【正确答案: 实时输入】的数据流，并将数据流以【正确答案: 时间片（秒级）】为单位拆分成批次，然后将每个批次交给 Spark 引擎（或 Spark Core）进行处理，最终生成以批次组成的结果数据流。5.Spark SQL支持读取【正确答案: text】、【正确答案: json】、【正确答案: parquet】类型的文件。【正确答案: A B C D】【正确答案: C】4.下面关于Spark MLlib库的描述正确的是【正确答案: A C】
复制链接

扫一扫