今天讲的是RDD。RDD是个相当抽象的概念,它是一个逻辑概念,并不是很好理解,但它确实整个spark里的一个非常核心的东西,甚至不夸张的讲,就通过RDD这个概念就能把spark整个底层机制给串起来。
RDD, 英文名:residenta distributed dataset, 弹性分布式数据集。下面,就是展示我语文功底的时候了。就分析这个词,就让你知道RDD的特性。
弹性 分布式 数据集
1.弹性 究竟多Q弹呢?正常情况下,数据是存放到内存里的,但是如果说内存放不下这么多数据时,这时候就会写到磁盘。RDD的这种自动进行内存和磁盘之间权衡和切换的机制,就是RDD的弹性的特点所在。对用户来说是透明的。