Spark的存储体系从Spark集群的横向角度看,贯穿了集群中的每个实例;从单个节点看,Spark的存储体系隶属于SparkEnv。
在之前的分析中,BroadcastManager对广播对象进行广播时离不开存储体系的支持;除此之外,无论是SparkContext的初始化,还是任务的提交与执行,始终都离不开存储体系。Spark为了避免Hadoop频繁读写磁盘造成磁盘I/O成为性能瓶颈,优先会将配置信息、计算结果等数据存入内存,这极大地提升了系统的执行效率。
下面将从以下几方面讲解Spark存储体系的构造: