【博学谷学习记录】超强总结，用心分享| RDD的基本知识

奔跑如风

已于 2023-06-08 11:08:53 修改

阅读量329

点赞数

文章标签： spark Powered by 金山文档

于 2023-02-05 22:56:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq331570870/article/details/128894721

版权

本文详细介绍了Spark中的RDD（弹性分布式数据集），包括RDD的基本介绍、五大特性和特点，以及如何通过并行化本地集合和读取外部数据源来构建RDD。RDD作为Spark的核心组件，解决了传统计算模型的不足，提供了高效迭代计算和内存计算的能力。

摘要由CSDN通过智能技术生成

1. RDD的基本介绍

1.1 什么是RDD

RDD: 弹性分布式数据集

出现目的: 为了能够支持更加高效的迭代计算操作

背景说明:

早期的计算模型: 单机计算模型

例如: MySQL / Excel

单机的计算模型

仅适用于: 小量数据集的处理操作

在计算操作的时候, 只有一个进程, 在一个进程中通过不断的迭代完成最终的计算操作

随着不断的发展, 整个社会数据量都在不断的增大, 原有单机的计算模型无法应对未来的数据处理需要, 怎么办呢? 分布式计算模型

核心: 采用多节点处理, 将一个任务拆分为N多个子任务, 分别运行在不同的节点上进行并行的处理,各个节点计算完成后, 将结果汇总处理即可 (分而治之)

诞生了相关的分布式计算框架: MR Spark Flink Storm ......

MR和Spark都是一个大规模的分布式计算引擎, 都可以处理大规模的数据;

MR存在的弊端: 1- 执行效率低 2- 迭代计算不方便

正因为MR存在一些弊端, 对于市场来说, 迫切需要一款能够解决MR痛点的架构:

1- 解决多次磁盘的IO问

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

奔跑如风 CSDN认证博客专家 CSDN认证企业博客

码龄12年

71: 原创

25万+: 周排名

98万+: 总排名

6万+: 访问

: 等级

1175: 积分

23: 粉丝

15: 获赞

4: 评论

23: 收藏

私信

关注

热门文章

分类专栏

PHP 10篇
HTML 5篇
CSS 3篇
JavaScript 5篇
C/C++ 5篇
Object-C 2篇
C# 1篇
Git 1篇
Mysql 2篇
Mac 1篇
Linux 1篇
其他 1篇

最新评论

【博学谷学习记录】超强总结，用心分享| Hudi核心概念
CSDN-Ada助手: 非常感谢你的分享！你的博客总结非常精彩，让读者一下子就了解到了Hudi的核心概念。我们期待你继续分享更多高质量的技术博客，例如可以写一篇介绍Hudi应用场景和案例分析的文章，或者深入探讨Hudi的性能优化和调优技巧等等。希望你能继续用心、持续分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
【博学谷学习记录】超强总结，用心分享| linux基本知识总结和shell的使用
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
通过insertBefore实现insertAfter
Jaye_L: 可以运行～

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。