RDD详解_1

本文深入探讨了Spark中的关键组件RDD,包括其弹性、分布式和数据集的特性。RDD是弹性分布式数据集,当内存不足时,数据会自动在内存和磁盘之间切换。分布式特性体现在数据在多台机器上的存储,与Task的一一对应。数据集不仅包含数据,还记录了操作和血缘关系,实现容错性。RDD依赖关系分为窄依赖和宽依赖,shuffle操作可能导致数据倾斜。算子分为transformation和action,transformation是懒加载,action触发计算。RDD缓存提高效率,支持不同级别的缓存策略。下篇将介绍RDD的实际操作。
摘要由CSDN通过智能技术生成

今天讲的是RDD。RDD是个相当抽象的概念,它是一个逻辑概念,并不是很好理解,但它确实整个spark里的一个非常核心的东西,甚至不夸张的讲,就通过RDD这个概念就能把spark整个底层机制给串起来。

RDD,  英文名:residenta distributed dataset, 弹性分布式数据集。下面,就是展示我语文功底的时候了。就分析这个词,就让你知道RDD的特性。


     弹性 分布式 数据集


1.弹性  究竟多Q弹呢?正常情况下,数据是存放到内存里的,但是如果说内存放不下这么多数据时,这时候就会写到磁盘。RDD的这种自动进行内存和磁盘之间权衡和切换的机制,就是RDD的弹性的特点所在。对用户来说是透明的。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值