spark考试题

这篇博客是一份Spark的考试题目集,涵盖了从数据类型、Scala基础知识、Spark RDD和DataFrame的区别、存储级别、Spark组件到编程题等多个方面。内容包括选择题、填空题、判断题和编程题,旨在检验和提升读者对Spark的理解和应用能力。
摘要由CSDN通过智能技术生成

一、单项选择题
1、下面哪个操作是窄依赖?(B)
窄依赖是指1个父RDD分区对应1个子RDD的分区。换句话说,一个父RDD的分区对应于一个子RDD的分区,或者多个父RDD的分区对应于一个子RDD的分区。所以窄依赖又可以分为两种情况:
1个子RDD的分区对应于1个父RDD的分区,比如map,filter,union等算子
1个子RDD的分区对应于N个父RDD的分区,比如co-partioned join

A、join
B、filter
C、group
D、sort
2、不属于Scala 7种数据类型之一的是?(D)
Scala支持数据类型:Byte、Short、Int、Long、Float、Double、Char
A、Char
B、Int
C、Float
D、LongLong
3、在Scala中如何获取字符串”Hello”的首字符和尾字符?(B)
A、”Hello”(0),”Hello”(5)
B、“Hello”.take(1),”Hello”.reverse(0)
C、“Hello”(1),”Hello”(5)
D、“Hello”.take(0),”Hello”.takeRight(1)
4、Scala 允许用数学去乘字符串,在REPL中输入”crazy”*3,这个操作结果返回什么?(C)
A、”crazy”*3
B、ccrraazzyy
C、crazycrazycrazy
D、crazy
5、RDD和DataFrame最大的区别是?(B)
RDD创建之后你知道他有这个类,但是你不知道它的内部结构,但是DataFream是以列式储存,它有schema([ˈskiːmə])是可以知道的(schema描述:按列存储,有对应列的描述(相当于数据结构))
其他不同点:(1)DataFream比RDD执行效率更高一些,因为在大数据的处理中,RDD即使用mappartition或者foreachRDD都要消耗不少的core(处理器),但是DataFrame他可以进行sql操作,先过滤掉一部分数据,在RDD中是不好实现的。(2)SpakSQL在执行的时候是有底层优化的
函数式编程:
GC:
DataFream的概念:
1)分布式的数据集,并且以列的方式组合的。相当于具有schema的RDD
2)相当于关系型数据库中的表,但是底层有优化
3)提供了一些抽象的操作,如select、filter、aggregation、plot
4)它是由于R语言或者Pandas语言处理小数据集的经验应用到处理分布式大数据集上
5)在1.3版本之前,叫SchemaRDD

A、科学统计支持
B、多了schema
C、存储方式不一样
D、外部数据源支持
6、Spark中默认的存储级别(A)
Spark中默认的存储级别:MEMORY_ONLY
A、MEMORY_ONLY
B、MEMORY_ONLY_SER
C、MEMORY_AND_DISK
D、MEMORY_AND_DISK_SER
7、编写一个过程countdown(n:Int),打印从n到0的数字?(C)
A、def countdown(n:Int){
0 to n foreach print
}
B、def countdown(n:Int){
(0 until n ).reverse foreach print
}
C、def countdown(n:Int){
0 to n reverse foreach print
}
D、def countdown(n:Int){
(0 to n-1) reverse foreach print
}
8、下面哪个属于Spark组成部件?(B)

A、Resource Manager
B、Executor
C、RDD //核心数据结构
D、Cllent

9、下面哪个不是RDD的特点?(D)
spark是粗粒度资源申请,也就是当提交spark application的时候,application会将所有的资源申请完毕,如果申请不到资源就等待,如果申请到资源才执行application,task在执行的时候就不需要自己去申请资源,task执行快,当最后一个task执行完之后task才会被释放。优点是执行速度快,缺点是不能使集群得到充分的利用
MapReduce是细粒度资源申请,当提交application的时候,task执行时,自己申请资源,自己释放资源,task执行完毕之后,资源立即会被释放,task执行的慢,application执行的相对比较慢。
优点是集群资源得到充分利用,缺点是application执行的相对比较慢。Spark是基于内存的,而MapReduce是基于磁盘的迭代

A、不支持增量迭代计算
B、基于内存的计算
C、没有schema信息
D、支持细粒度的写和更新
10、对于函数
Def getGoodsPrice(goods:String)={
Val prices = Map (“book”-> 5 ,”pen” -> 2,”sticker” ->1)
Prices.getOrElse(goods,0)//没有就为0
}
结果说法错误的是?(D)
A、getGoodsPrice(“book”)//等于5
B、getGoodsPrice(“pen”)//等于2
C、getGoodsPrice(“sticker”)//等于1
D、getGoodsPrice(“sock”)//等于”sock” //0

二、填空题
1、最早是Cloudera提供的日志收集系统&

  • 7
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值