spark算子之 1.RDD基本转换 2.键-值RDD转换 3.Action操作篇

摘要:

RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集
RDD有两种操作算子:

        Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住       了数据集的逻辑操作
         Ation(执行):触发Spark作业的运行,真正触发转换算子的计算
 
本系列主要讲解Spark中常用的函数操作:
         1.RDD基本转换
         2.键-值RDD转换

         3.Action操作篇


连接:https://www.cnblogs.com/MOBIN/p/5384543.html#9

阅读更多
上一篇大数据采集,运算,存储的一系列软件
下一篇SQL之索引
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭