要玩转大数据,Spark是一款很好的通用的并行计算框架。而经常接触Spark的数据人都会对RDD有一定的了解。那么,RDD到底是什么呢?今天,一起和大圣众包威客平台(www.dashengzb.cn)深入探讨RDD的相关知识点!
概括|RDD的基本介绍
RDD的全称是Resilient Distributed Datasets,顾名思义即为容错的、并行的数据结构。RDD可以让用户将数据显式地存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来控制这些数据。RDD一般包含4个部分,分别是:关于“血统”的信息,源码中的dependencies变量;源数据分割后的数据块,源代码中的splits变量;一些关于如何分块和数据存放位置的元信息,如源码中的partitioner和preferred Locations 0;一个计算函数(该RDD如何通过父RDD计算得到),源码中的iterator(split)和compute函数。
另外,RDD有几个核心概念不容忽视:Client——客户端进程,负责提交作业到Master;Master——Standalone模式中的主控节点,