Spark RDD基础

  • 什么是RDD?
    - RDD(弹性分布式数据集),就是分布式元素的集合(也可以看成是对每一个操作的记录,这是由于Spark采用的惰性计算规则导致的)
    - 每个RDD 都会有多个分区,这些分区运行在不同的节点上
    - 对RDD的操作无外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。
    - 默认情况下,Spark 的RDD 会在你每次对它们进行行动操作时重新计算。如果想在多个行动操作中重用同一个RDD,可以使用RDD.persist() 让Spark 把这个RDD 缓存下来
  • Spark程序的工作流程
    • 从外部数据创建出输入RDD。
    • 使用诸如filter() 这样的转化操作对RDD 进行转化,以定义新的RDD。
    • 告诉Spark 对需要被重用的中间结果RDD 执行persist() 操作。
    • 使用行动操作(例如count() 和first() 等)来触发一次并行计算,Spark 会对计算进行优化后再执行。
  • 针对RDD常用的函数,参见:http://blog.csdn.net/liangdong2014/article/details/70745198
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值