spark的RDD算子

最新推荐文章于 2024-06-10 21:13:52 发布

BiggerData

最新推荐文章于 2024-06-10 21:13:52 发布

阅读量316

点赞数

CC 4.0 BY-SA版权

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/liutao3233/article/details/127985102

RDD是什么？

RDD是弹性分布式数据集，是spark框架中用于数据处理的核心模型。本身并不是存储数据的集合，里面存储的是一堆算子，用于指向数据的指针

RDD为什么是分布式的？

因为数据是存储在大数据集群各个节点上面，会往数据所在节点上面传递RDD，所以RDD也是分布式的。分布式主要是指分区，有多少分区就会有多少RDD算子，每个分区执行各个的算子。

RDD的弹性

RDD默认是存放在内存中，每次执行算子都会消耗大量的内存，当内存不足的时候数据就会落盘。等后面内存逐渐释放的时候，落盘的数据会从重新加载到内存。这种内存和磁盘的数据进行有效的来回转换的过程就是RDD的弹性。

RDD的血统

根据数据血统，可以自动从节点失败中恢复分区。血统就是前一个算子是后一个算子的”爸爸“，也就是前一个算子的结果输出是下一个算子的结果输入。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BiggerData

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark中什么是RDD，什么是算子

wu1994226的博客

03-08

1057

Spark中什么是RDD，什么是算子 RDD(Resilient Distributed Dataset)，弹性分布式数据集。 RDD理解图 RDD是Spark数据结构最基本的抽象化概念之一。本质上 RDD是不存数据的，存的是计算逻辑，打个比方：有一个流水线工厂里面有工人RDD1、RDD2、RDD3当一个工件下来时RDD1做的是flatMap（）加工，做完之后，被加工后的工件传到RDD2那边做map（）加工，之后再传给RDD3做一些其他加工。直到工件加工完成出货为止。。。

Spark RDD算子示例

weixin_53898747的博客

04-09

1224

转换算子和行动算子的示例

参与评论您还未登录，请先登录后发表或查看评论

揭秘Spark中RDD算子是什么

知其然，知其所以然

01-21

501

1、RDD基础 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。二.官网...

spark的rdd的含义_Spark RDD算子介绍

weixin_42401025的博客

12-28

260

Spark学习笔记总结01. Spark基础1. 介绍Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。2. Spark-Shellspark-shel...

记一次spark计算结果无法落盘问题的解析思路

liuwei0376的专栏

02-08

1603

一、问题现象今天的azkaban有个spark任务(离线)报错, 报错信息如下: 08-02-2022 07:09:32 CST DailyReport2Excel INFO - 08-02-2022 07:09:32 CST DailyReport2Excel INFO - ApplicationMaster host: 111.111.111.131 08-02-2022 07:09:32 CST DailyReport2Excel INFO - ApplicationMaster RPC

Spark -八股

芜湖

08-18

1029

要讨论Spark三种不同的提交流程，首先要明确Spark最基本的运行架构。

Spark RDD算子实战总结（超详细哦，绝对的干货！！！）

weixin_43520450的博客

09-10

4557

Spark RDD算子一、Spark算子概述二、Transformation算子下面来具体说明：三、Actions算子下面来具体说明：四、宽依赖和窄依赖一、Spark算子概述 RDD：弹性分布式数据集，是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作，一个RDD代表多个分区里的数据集。 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作 Action

Spark RDD算子

最新发布

weixin_74292291的博客

06-10

869

Spark RDD算子转换算子行动算子 Spark RDD 并行度控制

sparkrdd算子

03-18

下面是一些常用的Spark RDD算子介绍： 1. 转换算子： - map(func)：对RDD中的每个元素应用给定的函数，返回一个新的RDD。 - filter(func)：对RDD中的每个元素应用给定的函数，返回满足条件的元素组成的新的RDD。 ...

Spark

weixin_61399281的博客

05-21

916

Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。SparkSQL支持查询原生的RDD。RDD是Spark的核心概念，是Spark能够高效的处理大数据的各种场景的基础。能够在scalajava中写SQL语句。支持简单的SQL语法检查，能够在SQL中写Hive语句访问Hive数据，并将结果取回作为RDD使用。SparkStreaming是流式处理框架，是Spark API（RDD）的扩展，支持可扩展、高吞吐量、容错的准实时数据流处理。

Spark源码解读(三)

一个有深度的博客

07-01

694

一、shuffle的过程 shuffle是必须要落盘的，在shuffleRDD肯定会读取文件。 shuffle的过程，多个task先去读索引文件找到位置之后，再去读数据文件。多个任务也能往同一个文件中写入数据。写数据的过程： case stage: ShuffleMapStage => ... // 创建shuffleTask，去落盘数据 new ShuffleMapTask(stage.id, stage.latestInfo.attemptNumber, taskB

Spark中Shuffle的前世今生

weixin_43418390的博客

09-17

341

1.Shuffle的变迁 Spark 0.8及以前 Hash Based Shuffle Spark 0.8.1 为Hash Based Shuffle引入File Consolidation机制 Spark 0.9 引入ExternalAppendOnlyMap Spark 1.1 引入Sort Based Shuffle，但默认仍为Hash Based Shuffle Spark 1.2 默认的Shuffle方式改为Sort Based Shuffle Spark 1.4 引入Tungsten-Sort

spark总结

new_renren的博客

06-13

224

宽依赖: 一个父(上游)RDD的Partition可以被子(下游)RDD的多个Partition使用(会产生Shuffle), 像多生子女;RDD的Lineage(血统)会记录RDD间的元数据信息和转换行为, 当该RDD的部分分区数据丢失时可以根据这些信息来恢复数据并重新计算。分布式计算中, Driver要往Executor端发数据, 所以数据要支持序列化(算子内经常会用到算子外的数据, 闭包检测)算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行。

Spark的shuffle

OwlWing的博客

10-26

2113

1. Spark的shuffle阶段发生在阶段划分时，也就是宽依赖算子时。宽依赖算子不一定发生shuffle。 2. Spark的shuffle分两个阶段，一个使Shuffle Write阶段，一个使Shuffle read阶段。 3. Shuffle Write阶段会选择分区器，比如HashPartitioner，RangePartitioner，或者使自定义分区器也会根据一些条件，来选择到底使用哪一个Writer对象 unsafeshuffleWri...

Spark 笔记

Yuexp0825的博客

04-13

629

Spark概述: Spark在2013年6月发行,早于Yarn的发行,所以内置一套资源调度框架。 Spark基于内存进行数据的分析计算,中间过程只要不涉及Shuffle就不会落盘,减少了磁盘IO,所以性能更高。 Spark 内置模块: Spark Core: 封装了RDD的API,实现Spark基本不功能,即任务调度、内存管理、错误恢复、与存储系统交互。 Spark SQL :是Spark用来操作结构化数据的程序包。 Spark Streaming:用于实时数据的流式计算,提供了操作数据...

spark入门总结

不爱吃鱼的馋猫

09-28

215

1.spark要是经过Shuffle也会落盘 2.MR不适合迭代式计算，MR1 ->结果落盘 ->MR2 ->结果落盘 ->MR3 3.Hadoop2.x解决了Hadoop1.x的问题，实现了Yran，将任务调度与资源调度解耦，并且计算框架可插拔（可以换别的计算引擎） 4.RDD弹性分布式数据集，相当于抽象出一个集合，可以使用集合的方法，但是不同于集合，集合是真正储存数据的， RDD不存数据，而存计算逻辑的。通过计算逻辑可以拿到数据。 5.RDD中的方法叫算子。 6.Spark做.

大数据笔记--Spark（第二篇）

我睡觉的时候不困

04-02

1154

目录一、DAG概念 1、概述 2、详解二、RDD的依赖关系 1、概括 2、窄依赖 3、宽依赖 4、Shuffle概述三、DAG的生成与Stage的划分 1、DAG的生成 2、Saprk的Stage（阶段） 3、Saprk的Job和Task 4、可视化理解窄依赖和宽依赖四、Spark框架核心概念一、DAG概念 1、概述 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系，同时这个计算链也就生成了逻辑上的DAG。 2、详解我们一单

Spark技术内幕：如何解决Shuffle Write一定要落盘的问题？

weixin_34059951的博客

01-11

712

在Spark 0.6和0.7时，Shuffle的结果都需要先存储到内存中（有可能要写入磁盘），因此对于大数据量的情况下，发生GC和OOM的概率非常大。因此在Spark 0.8的时候，Shuffle的每个record都会直接写入磁盘，并且为下游的每个Task都生成一个单独的文件。这样解决了Shuffle解决都需要存入内存的问题，但是又引入了另外一个问题：生...

Spark shuffle、RDD算子【重要】

m0_51697147的博客

05-04

312

一、介绍一下Spark shuffle： Spark shuffle就是将分布在不同结点的数据按照一定的规则进行打乱重组。那么，说起shuffle就想到M...