spark
王老诩
茂密
展开
-
spark应用以及RDD的运行原理
RDD是什么? RDD(Resilient Distributed Dataset)是一个弹性分布式数据集,简单的说就是弹性加分布式的数据集。 在rdd里的数据可以并行在分布式集群中进行计算; 弹性就是说RDD中的数据可以存储在内存或者是磁盘,而且RDD中的分区是可以改变的; RDD有哪些特性? RDD的数据结构是有多个partition的list; RDD的每个partition上面...原创 2019-05-28 09:40:03 · 737 阅读 · 0 评论 -
Spark常用算子
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)...转载 2019-06-11 15:16:13 · 209 阅读 · 0 评论