Spark RDD详解1

最新推荐文章于 2024-07-24 16:58:26 发布

idotc

最新推荐文章于 2024-07-24 16:58:26 发布

阅读量283

点赞数 1

分类专栏： spark 文章标签：分布式大数据 spark 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21578849/article/details/115528128

版权

目录

一、spark简介
二、RDD是什么
三、为什么会产生RDD

一、spark简介

Spark是整个商务数据分析系统（BDAS）的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、远程过程调用（RPC）、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口。

执行器作用：
负责运行组成Spark应用的任务，并将结果返回给驱动器进程；
通过自身的块管理器(blockManager)为用户程序中要求缓存的RDD提供内存式存储。RDD是直接缓存在执行器进程内的，因此任务可以在运行时充分利用缓存数据加快运算。
驱动器的职责：
所有的Spark程序都遵循同样的结构：程序从输入数据创建一系列RDD，再使用转化操作派生成新的RDD，最后使用行动操作收集或存储结果RDD，Spark程序其实是隐式地创建出了一个由操作组成的逻辑上的有向无环图DAG。当驱动器程序执行时，它会把这个逻辑图转为物理执行计划。这样 Spark就把逻辑计划转为一系列步骤(stage)，而每个步骤又由多个任务组成。这些任务会被打包送到集群中。

二、RDD是什么

RDD：Spark的核心概念是RDD (resilientdistributed datase

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD详解1

目录一、spark简介二、RDD是什么https://www.cnblogs.com/wzj4858/p/8204395.htmlhttps://www.freesion.com/article/13221196900/一、spark简介       Spark是整个商务数据分析系统（BDAS）的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。