spark编程模型(一)之RDD的类型

本文介绍了Spark中的RDD操作,包括创建、转换、控制和行为四大类操作。创建操作涉及从现有集合或外部存储创建RDD;转换操作如map、filter等定义新的RDD但不立即执行;控制操作如persist、cache用于持久化RDD;行为操作如count、save触发Spark执行并可能将结果保存或输出。
摘要由CSDN通过智能技术生成

spark中的RDD操作类型可以分为四类:创建操作(creation)、转换操作(transformation)、控制操作(control)、行为操作(action

  • 创建操作(Creation Operation)
    主要用于创建RDD。创建RDD的两种方法,一种是parallelize或者makeRDD一个已存在的集合,另一种是在外部存储系统(比如HDFSHBASE)中引用一个数据集

  • 转换操作(Transformation Operation)
    RDD通过一定的操作变换成新的RDD,比如HadoopRDD可以使用map操作变换成MappedRDDRDD的转换操作是惰性操作,它只定义了一个新的RDDs,并没有立即执行

  • 控制操作(Control Operation)
    进行RDD持久化,可以让RDD按照不用的存储策略保存在磁盘或者内存中,主要有persistcache两个方法,实际上cache

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值