【博学谷学习记录】超强总结,用心分享| RDD的基本知识

本文详细介绍了Spark中的RDD(弹性分布式数据集),包括RDD的基本介绍、五大特性和特点,以及如何通过并行化本地集合和读取外部数据源来构建RDD。RDD作为Spark的核心组件,解决了传统计算模型的不足,提供了高效迭代计算和内存计算的能力。
摘要由CSDN通过智能技术生成

1. RDD的基本介绍

1.1 什么是RDD

RDD: 弹性分布式数据集

出现目的: 为了能够支持更加高效的迭代计算操作

背景说明:

早期的计算模型: 单机计算模型

例如: MySQL / Excel

单机的计算模型

仅适用于: 小量数据集的处理操作

在计算操作的时候, 只有一个进程, 在一个进程中通过不断的迭代完成最终的计算操作

随着不断的发展, 整个社会数据量都在不断的增大, 原有单机的计算模型无法应对未来的数据处理需要, 怎么办呢? 分布式计算模型

核心: 采用多节点处理, 将一个任务拆分为N多个子任务, 分别运行在不同的节点上进行并行的处理,各个节点计算完成后, 将结果汇总处理即可 (分而治之)

诞生了相关的分布式计算框架: MR Spark Flink Storm ......

MR和Spark都是一个大规模的分布式计算引擎, 都可以处理大规模的数据;

MR存在的弊端: 1- 执行效率低 2- 迭代计算不方便

正因为MR存在一些弊端, 对于市场来说, 迫切需要一款能够解决MR痛点的架构:

1- 解决多次磁盘的IO问

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值