spark考试题

最新推荐文章于 2024-05-14 05:07:37 发布

livia*

最新推荐文章于 2024-05-14 05:07:37 发布

阅读量6.9k

点赞数 7

本文链接：https://blog.csdn.net/Hi_this_is_ID/article/details/103803783

版权

这篇博客是一份Spark的考试题目集，涵盖了从数据类型、Scala基础知识、Spark RDD和DataFrame的区别、存储级别、Spark组件到编程题等多个方面。内容包括选择题、填空题、判断题和编程题，旨在检验和提升读者对Spark的理解和应用能力。

摘要由CSDN通过智能技术生成

一、单项选择题
1、下面哪个操作是窄依赖？（B）
窄依赖是指1个父RDD分区对应1个子RDD的分区。换句话说，一个父RDD的分区对应于一个子RDD的分区，或者多个父RDD的分区对应于一个子RDD的分区。所以窄依赖又可以分为两种情况：
1个子RDD的分区对应于1个父RDD的分区，比如map，filter，union等算子
1个子RDD的分区对应于N个父RDD的分区，比如co-partioned join
A、join
B、filter
C、group
D、sort
2、不属于Scala 7种数据类型之一的是？（D）
Scala支持数据类型：Byte、Short、Int、Long、Float、Double、Char
A、Char
B、Int
C、Float
D、LongLong
3、在Scala中如何获取字符串”Hello”的首字符和尾字符？（B）
A、”Hello”(0),”Hello”(5)
B、“Hello”.take(1),”Hello”.reverse(0)
C、“Hello”(1),”Hello”(5)
D、“Hello”.take(0),”Hello”.takeRight(1)
4、Scala 允许用数学去乘字符串，在REPL中输入”crazy”*3,这个操作结果返回什么？（C）
A、”crazy”*3
B、ccrraazzyy
C、crazycrazycrazy
D、crazy
5、RDD和DataFrame最大的区别是？（B）
RDD创建之后你知道他有这个类，但是你不知道它的内部结构，但是DataFream是以列式储存，它有schema（[ˈskiːmə]）是可以知道的（schema描述：按列存储，有对应列的描述（相当于数据结构））
其他不同点：（1）DataFream比RDD执行效率更高一些，因为在大数据的处理中，RDD即使用mappartition或者foreachRDD都要消耗不少的core（处理器），但是DataFrame他可以进行sql操作，先过滤掉一部分数据，在RDD中是不好实现的。（2）SpakSQL在执行的时候是有底层优化的
函数式编程：
GC:
DataFream的概念：
1）分布式的数据集，并且以列的方式组合的。相当于具有schema的RDD
2）相当于关系型数据库中的表，但是底层有优化
3）提供了一些抽象的操作，如select、filter、aggregation、plot
4）它是由于R语言或者Pandas语言处理小数据集的经验应用到处理分布式大数据集上
5）在1.3版本之前，叫SchemaRDD
A、科学统计支持
B、多了schema
C、存储方式不一样
D、外部数据源支持
6、Spark中默认的存储级别（A）
Spark中默认的存储级别:MEMORY_ONLY
A、MEMORY_ONLY
B、MEMORY_ONLY_SER
C、MEMORY_AND_DISK
D、MEMORY_AND_DISK_SER
7、编写一个过程countdown(n:Int),打印从n到0的数字？（C）
A、def countdown(n:Int){
0 to n foreach print
}
B、def countdown(n:Int){
(0 until n ).reverse foreach print
}
C、def countdown(n:Int){
0 to n reverse foreach print
}
D、def countdown(n:Int){
(0 to n-1) reverse foreach print
}
8、下面哪个属于Spark组成部件？（B）

A、Resource Manager
B、Executor
C、RDD //核心数据结构
D、Cllent

9、下面哪个不是RDD的特点？（D）
spark是粗粒度资源申请，也就是当提交spark application的时候，application会将所有的资源申请完毕，如果申请不到资源就等待，如果申请到资源才执行application，task在执行的时候就不需要自己去申请资源，task执行快，当最后一个task执行完之后task才会被释放。优点是执行速度快，缺点是不能使集群得到充分的利用
MapReduce是细粒度资源申请，当提交application的时候，task执行时，自己申请资源，自己释放资源，task执行完毕之后，资源立即会被释放，task执行的慢，application执行的相对比较慢。
优点是集群资源得到充分利用，缺点是application执行的相对比较慢。Spark是基于内存的，而MapReduce是基于磁盘的迭代
A、不支持增量迭代计算
B、基于内存的计算
C、没有schema信息
D、支持细粒度的写和更新
10、对于函数
Def getGoodsPrice(goods:String)={
Val prices = Map (“book”-> 5 ,”pen” -> 2,”sticker” ->1)
Prices.getOrElse(goods,0)//没有就为0
}
结果说法错误的是？（D）
A、getGoodsPrice(“book”)//等于5
B、getGoodsPrice(“pen”)//等于2
C、getGoodsPrice(“sticker”)//等于1
D、getGoodsPrice(“sock”)//等于”sock” //0

二、填空题
1、最早是Cloudera提供的日志收集系统&

最低0.47元/天解锁文章

livia*

关注

7
点赞
踩
59

收藏

觉得还不错? 一键收藏
0
评论
spark考试题

一、单项选择题1、下面哪个操作是窄依赖？（B）窄依赖是指1个父RDD分区对应1个子RDD的分区。换句话说，一个父RDD的分区对应于一个子RDD的分区，或者多个父RDD的分区对应于一个子RDD的分区。所以窄依赖又可以分为两种情况：1个子RDD的分区对应于1个父RDD的分区，比如map，filter，union等算子1个子RDD的分区对应于N个父RDD的分区，比如co-partioned jo...
复制链接

扫一扫