spark快速大数据分析(3)

spark官方文档中的快速入门指南:http://spark.apache.org/docs/latest/quick-start.html

本书的github仓库:https://github.com/databricks/learning-spark

__________________________________________

RDD基础

  • spark核心概念、核心抽象
  • 弹性分布式数据集Resilient Distributed Database
  • 分布式的元素集合

spark中,所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。

每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。

RDD可以包含python、Java、Scala中的任意类型的对象,甚至可以包含用户自定义的对象。

RDD支持两种类型的操作:转换操作(transformation)和行动操作(action)。区别在于spark计算RDD的方式不同。spark会惰性计算RDD,只有第一次在一个行动操作中用到时,才会真正计算。

如果想在多个行动操作中重用同一个RDD,可以使用RDD.persist()让spark把这个RDD缓存下来,这样第一次对持久化的RDD计算后,spark会把RDD的内容保存在内存中࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值