RDD数据结构,将成为Spark的核心模块!

本文介绍了Spark中的核心数据结构RDD,包括其基本概念、特点、与DSM的区别,以及如何创建和操作RDD。RDD是弹性分布式数据集,具有容错性和并行操作的能力,分为窄依赖和宽依赖两种依赖类型。此外,文章还提到了RDD的创建方法、操作类型(transformation和action)以及常见的RDD相关术语。
摘要由CSDN通过智能技术生成

要玩转大数据,Spark是一款很好的通用的并行计算框架。而经常接触Spark的数据人都会对RDD有一定的了解。那么,RDD到底是什么呢?今天,一起和大圣众包威客平台(www.dashengzb.cn)深入探讨RDD的相关知识点!

3.jpg

  概括|RDD的基本介绍

  RDD的全称是Resilient Distributed Datasets,顾名思义即为容错的、并行的数据结构。RDD可以让用户将数据显式地存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来控制这些数据。RDD一般包含4个部分,分别是:关于“血统”的信息,源码中的dependencies变量;源数据分割后的数据块,源代码中的splits变量;一些关于如何分块和数据存放位置的元信息,如源码中的partitioner和preferred Locations 0;一个计算函数(该RDD如何通过父RDD计算得到),源码中的iterator(split)和compute函数。

  另外,RDD有几个核心概念不容忽视:Client——客户端进程,负责提交作业到Master;Master——Standalone模式中的主控节点,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值