- 自动进行内存和磁盘数据存储的切换。spark会优先将数据放到内存,放不下时才放到磁盘,保障其高效运行。
- 基于Lineage的高效容错机制。RDD每个操作只关联其父操作,各个分片数据之间互不影响。
- Task失败会进行特定次数的重试。默认4次。
- Stage失败会进行特定次数的重试。默认4次。
- checkpoint和persist(检查点和持久化),可主动或被动触发。
- 数据调度弹性, DAGScheduler、 TASKScheduler和资源管理无关。
- 数据分片的高度弹性,可以灵活伸缩分片数(coalesce)。
Spark的RDD弹性特性的几个方面
最新推荐文章于 2024-01-23 23:14:24 发布