大数据学习之Spark——04RDD概述及创建

本文介绍了Spark中的核心概念RDD,包括其概述、五大特性:分区、只读、依赖、缓存和checkpoint。RDD是弹性分布式数据集,表示不可变、可分区的数据集合。文章详细阐述了RDD的编程模型,如何从集合、外部存储系统和其他RDD创建新的RDD,并讨论了RDD的延迟计算和容错机制。
摘要由CSDN通过智能技术生成

一. RDD概述

1. 什么是RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。

2. RDD的五大特性

  1. RDD是由一系列partition组成
  2. 算子(函数)是作用在RDD的partition上的
  3. RDD之间有依赖关系
  4. 分区器是作用在k, v格式的RDD上
  5. partition提供数据计算的最佳位置, 利于数据处理的本地化. “计算移动, 数据不移动

3. RDD特点

  • RDD表示只读分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖,RDD的执行是按照血缘关系延时计算的。如果血缘关系较长,可以通过持久化RDD来切断血缘关系。
1. 分区
  1. RDD逻辑上是分区的,每个分区的数据是抽象存在的,计算的时候会通过一个compute函数得到每个分区的数据。
  2. 如果RDD是通过已有的文件系统构建,则compute函数是读取指定文件系统中的数据
  3. 如果RDD是通过其他RDD转换而来,则compute函数是执行转换逻辑将其他RDD的数据进行转换。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值