大数据之spark面试题 一、RDD 1. 什么是RDD? "弹性"体现在哪里?RDD存在的缺陷? 2. RDD支持几种常见操作?分别是什么?有和区别?举例 3. RDD有多少种持久化方式?memory_only如果内存存储不了,会如何操作? 一、RDD 1. 什么是RDD? "弹性"体现在哪里?RDD存在的缺陷? (1)RDD(Resilient Distributed Dataset, 弹性分布式数据集) (2)弹性体现: 自动进行内存和磁盘切换 基于lineage的高效容错 task如果失败会特定次数的重试 stage如果失败会自动进行特定次数的重试,而且只会计算失败的分片 checkpoint(检查点)和persist(持久化) persist:内存或磁盘中对数据进行复用 数据调度弹性:DAG TASK和资源管理无关 数据分