- 什么是RDD?
- RDD(弹性分布式数据集),就是分布式元素的集合(也可以看成是对每一个操作的记录,这是由于Spark采用的惰性计算规则导致的)
- 每个RDD 都会有多个分区,这些分区运行在不同的节点上
- 对RDD的操作无外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。
- 默认情况下,Spark 的RDD 会在你每次对它们进行行动操作时重新计算。如果想在多个行动操作中重用同一个RDD,可以使用RDD.persist() 让Spark 把这个RDD 缓存下来 - Spark程序的工作流程
- 从外部数据创建出输入RDD。
- 使用诸如filter() 这样的转化操作对RDD 进行转化,以定义新的RDD。
- 告诉Spark 对需要被重用的中间结果RDD 执行persist() 操作。
- 使用行动操作(例如count() 和first() 等)来触发一次并行计算,Spark 会对计算进行优化后再执行。
- 针对RDD常用的函数,参见:http://blog.csdn.net/liangdong2014/article/details/70745198
Spark RDD基础
最新推荐文章于 2024-05-12 23:09:15 发布