大数据面试题（二）

最新推荐文章于 2020-10-24 09:39:33 发布

犀牛_2046

最新推荐文章于 2020-10-24 09:39:33 发布

阅读量750

点赞数 2

分类专栏： # 大数据面试指南文章标签： Spark面试题大数据面试题

原文链接：https://blog.csdn.net/Zonzereal/article/details/80013285

版权

大数据面试指南专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.cache后面能不能接其他算子,它是不是action操作？

2.reduceByKey是不是action？

3.数据本地性是在哪个环节确定的？

4.RDD的弹性表现在哪几点？

5.常规的容错方式有哪几种类型？

6.RDD通过Linage（记录数据更新）的方式为何很高效？

7.RDD有哪些缺陷？

8. Spark有哪些聚合类的算子，我们应该尽量避免什么类型的算子？

9. 你如何从Kafka中获取数据？

10. 对于Spark中的数据倾斜问题你有什么好的方案？

11.RDD创建有哪几种方式？

12.Spark并行度怎么设置比较合适

13.Spark中数据的位置是被谁管理的？

14.Spark的数据本地性有哪几种？

15.Spark如何处理不能被序列化的对象？

16.collect功能是什么，其底层是怎么实现的？

17.Spaek程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？

18.为什么Spark Application在没有获得足够的资源，job就开始执行了，可能会导致什么什么问题发生?

19.map与flatMap的区别

20.Spark为什么要持久化，一般什么场景下要进行persist操作？

21.为什么要进行序列化？

22.介绍一下join操作优化经验？

1.cache后面能不能接其他算子,它是不是action操作？

答：cache可以接其他算子，但是接了算子之后，起不到缓存应有的效果，因为会重新触发cache。cache不是action操作。

2.reduceByKey是不是action？

答：不是，很多人都会以为是action，reduce rdd是action

3.数据本地性是在哪个环节确定的？

具体的task运行在那他机器上，dag划分stage的时候确定的

4.RDD的弹性表现在哪几点？

自动的进行内存和磁盘的存储切换；
基于Lineage的高效容错；
task如果失败会自动进行特定次数的重试；
stage如果失败会自动进行特定次数的重试，而且只会计算失败的分片；
checkpoint和persist，数据计算之后持久化缓存
数据调度弹性，DAG TASK调度和资源无关
数据分片的高度弹性，a.分片很多碎片可以合并成大的，b.par

5.常规的容错方式有哪几种类型？

数据检查点,会发生拷贝，浪费资源
记录数据的更新，每次更新都会记录下来，比较复杂且比较消耗性能

6.RDD通过Linage（记录数据更新）的方式为何很高效？

lazy记录了数据的来源，RDD是不可变的，且是lazy级别的，且RDD之间构成了链条，lazy是弹性的基石。由于RDD不可变，所以每次操作就产生新的rdd，不存在全局修改的问题，控制难度下降，所有有计算链条将复杂计算链条存储下来，计算的时候从后往前回溯900步是上一个stage的结束，要么就checkpoint。
记录原数据，是每次修改都记录，代价很大如果修改一个集合，代价就很小，官方说rdd是粗粒度的操作，是为了效率，为了简化，每次都是操作数据集合，写或者修改操作，都是基于集合的rdd的写操作是粗粒度的，rdd的读操作既可以是粗粒度的也可以是细粒度，读可以读其中的一条条的记录。
简化复杂度，是高效率的一方面，写的粗粒度限制了使用场景，如网络爬虫，现实世界中，大多数写是粗粒度的场景。

7.RDD有哪些缺陷？

不支持细粒度的写和更新操作（如网络爬虫），Spark写数据是粗粒度的，所谓粗粒度，就是批量写入数据，为了提高效率。但是读数据是细粒度的也就是说可以一条条的读。
不支持增量迭代计算，Flink支持

8. Spark有哪些聚合类的算子，我们应该尽量避免什么类型的算子？

答：在我们的开发过程中，能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子，尽量使用map类的非shuffle算子。这样的话，没有shuffle操作或者仅有较少shuffle操作的Spark作业，可以大大减少性能开销。

9. 你如何从Kafka中获取数据？

（1）基于Receiver的方式

这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。

（2）基于Direct的方式

这种新的不基于Receiver的直接方式，是在Spark 1.3中引入的，从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后，这种方式会周期性地查询Kafka，来获得每个topic+partition的最新的offset，从而定义每个batch的offset的范围。当处理数据的job启动时，就会使用Kafka的简单consumer api来获取Kafka指定offset范围的数据

10. 对于Spark中的数据倾斜问题你有什么好的方案？

（1）前提是定位数据倾斜，是OOM了，还是任务执行缓慢，看日志，看WebUI

（2）解决方法，有多个方面

避免不必要的shuffle，如使用广播小表的方式，将reduce-side-join提升为map-side-join。
分拆发生数据倾斜的记录，分成几个部分进行，然后合并join后的结果。
改变并行度，可能并行度太少了，导致个别task数据压力大。
两阶段聚合，先局部聚合，再全局聚合。
自定义paritioner，分散key的分布，使其更加均匀。

11.RDD创建有哪几种方式？

使用程序中的集合创建rdd
使用本地文件系统创建rdd
使用hdfs创建rdd
基于数据库db创建rdd
基于Nosql创建rdd，如hbase
基于s3创建rdd
基于数据流，如socket创建rdd

如果只回答了前面三种，是不够的，只能说明你的水平还是入门级的，实践过程中有很多种创建方式。

12.Spark并行度怎么设置比较合适

答：spark并行度，每个core承载2~4个partition,如，32个core，那么64~128之间的并行度，也就是设置64~128个partion，并行读和数据规模无关，只和内存使用量和cpu使用时间有关。

13.Spark中数据的位置是被谁管理的？

答：每个数据分片都对应具体物理位置，数据的位置是被blockManager，无论数据是在磁盘，内存，都是由blockManager管理。

14.Spark的数据本地性有哪几种？

答：Spark中的数据本地性有三种：

a.PROCESS_LOCAL：是指读取缓存在本地节点的数据。

b.NODE_LOCAL：是指读取本地节点硬盘数据。

c.ANY：是指读取非本地节点数据。

通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY，尽量使数据以PROCESS_LOCAL或NODE_LOCAL方式读取。其中PROCESS_LOCAL还和cache有关，如果RDD经常用的话将该RDD cache到内存中，注意，由于cache是lazy的，所以必须通过一个action的触发，才能真正的将该RDD cache到内存中。

15.Spark如何处理不能被序列化的对象？

将不能序列化的内容封装成object。

16.collect功能是什么，其底层是怎么实现的？

答：driver通过collect把集群中各个节点的内容收集过来汇总成结果，collect返回结果是Array类型的，collect把各个节点上的数据抓过来，抓过来数据是Array型，collect对Array抓过来的结果进行合并，合并后Array中只有一个元素，是tuple类型（KV类型的）的。

17.Spaek程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？

因为输入数据有很多task，尤其是有很多小文件的时候，有多少个输入block就会有多少个task启动；
Spark中有partition的概念，每个partition都会对应一个task，task越多，在处理大规模数据的时候，就会越有效率。不过task并不是越多越好，如果平时测试，或者数据量没有那么大，则没有必要task数量太多。
参数可以通过spark_home/conf/spark-default.conf配置文件设置:spark.sql.shuffle.partitions 50 spark.default.parallelism 10

第一个是针对spark sql的task数量。

第二个是非spark sql程序设置生效。

18.为什么Spark Application在没有获得足够的资源，job就开始执行了，可能会导致什么什么问题发生?

答：会导致执行该job时候集群资源不足，导致执行job结束也没有分配足够的资源，分配了部分Executor，该job就开始执行task，应该是task的调度线程和Executor资源申请是异步的；如果想等待申请完所有的资源再执行job的：需要将spark.scheduler.maxRegisteredResourcesWaitingTime设置的很大；spark.scheduler.minRegisteredResourcesRatio 设置为1，但是应该结合实际考虑，否则很容易出现长时间分配不到资源，job一直不能运行的情况。

19.map与flatMap的区别

map：对RDD每个元素转换，文件中的每一行数据返回一个数组对象。

flatMap：对RDD每个元素转换，然后再扁平化将所有的对象合并为一个对象，文件中的所有行数据仅返回一个数组对象，会抛弃值为null的值。

20.Spark为什么要持久化，一般什么场景下要进行persist操作？

进行持久化的原因：

spark所有复杂一点的算法都会有persist身影,spark默认数据放在内存，spark很多内容都是放在内存的，非常适合高速迭代，1000个步骤只有第一个输入数据，中间不产生临时数据，但分布式系统风险很高，所以容易出错，就要容错，rdd出错或者分片可以根据血统算出来，如果没有对父rdd进行persist 或者cache的化，就需要重头做。

以下场景会使用persist：

某个步骤计算非常耗时，需要进行persist持久化。
计算链条非常长，重新恢复要算很多步骤，很好使，persist
checkpoint所在的rdd要持久化persist。（lazy级别，框架发现有checnkpoint，checkpoint时单独触发一个job，需要重算一遍，checkpoint前要持久化，写个rdd.cache或者rdd.persist，将结果保存起来，再写checkpoint操作，这样执行起来会非常快，不需要重新计算rdd链条了。checkpoint之前一定会进行persist。）
shuffle之后为什么要persist，shuffle要进性网络传输，风险很大，数据丢失重来，恢复代价很大
shuffle之前进行persist，框架默认将数据持久化到磁盘，这个是框架自动做的。

21.为什么要进行序列化？

序列化可以减少数据的体积，减少存储空间，高效存储和传输数据，不好的是使用的时候要反序列化，非常消耗CPU。

22.介绍一下join操作优化经验？

join其实常见的就分为两类： map-side join 和 reduce-side join。

当大表和小表join时，用map-side join能显著提高效率。将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。如果其中有张表较小的话，我们则可以自己实现在 map 端实现数据关联，跳过大量数据进行 shuffle 的过程，运行时间得到大量缩短，根据不同数据可能会有几倍到数十倍的性能提升。