RDD的五大特征

最新推荐文章于 2025-05-14 16:24:51 发布

2401_84653595

最新推荐文章于 2025-05-14 16:24:51 发布

阅读量428

点赞数 8

文章标签： spark

本文链接：https://blog.csdn.net/2401_84653595/article/details/147892030

版权

1.RDD是有分区的。

RDD的分区是RDD数据存储的最小单位。一份数据本质是分隔了多个分区。如下图示，假如1个RDD有3个分区，RDD内存储了123456，那么数据本质上分散在三个分区内进行存储。

举个生活中的例子：高考的时候，每个班的同学都打散到不同的考场，此时的高3（8）班就是一个抽象的概念，在实际中，这个班级的学生可能分布在5个不同的考场。

2.计算函数会作用于每个分区

RDD的方法会作用在所有的分区上。

3.每个RDD之间是有依赖关系（RDD有血缘关系）

RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。

4.Key-Value型的RDD可以有分区器

数据默认分区器：Hash分区规则，可以手动设置一个分区器(rdd.partitionBy的方式来设置）

5.每一个分区都有一个优先位置列表

优先位置列表会存储每个Partition的优先位置，对于一个HDFS文件来说，就是每个Partition块的位置。按照“移动数据不如移动计算”的理念，Spark在进行任务调度时，会尽可能地将任务分配到其所要处理数据块的存储位置。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

2401_84653595

关注关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【大数据学习 | Spark-Core】RDD的五大特性(包含宽窄依赖)

2301_80912559的博客

11-23

1959

分析一下rdd的特性和执行流程。

Spark RDD五大特性

一亩三分地

03-12

2221

学习rdd的特性最好是从官网和源码来进行学习，首先看下官网解释：http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds Resilient Distributed Datasets (RDDs) Spark revolves around t...

参与评论您还未登录，请先登录后发表或查看评论

Spark RDD五大特征

weixin_45967421的博客

11-06

2765

1.Rdd由一组分区组成（partition）默认是一个block 对应一个分区 2.每个分区都有一个 Task 来处理，函数实际上是作用在每一个分区上的 3.RDD 直接由一系列的依赖关系宽依赖与窄依赖宽依赖存在 shuffle 算子分区对应的关系是一对多关系窄依赖没有 shuffle 算子分区对应一对一关系根据宽窄依赖切分 Stage ， Stage 是一组并行计算的 task 4.分区类算子都会作用在 key value 的 RDD 上 5.spark为 task 提.

RDD-五大特征

qq_43688472的博客

12-10

1773

学习就是一场旅行，不断去探索未知的世界，有人说哪里的风景无限，未曾走过，只是听说，唯有经过，才知惊喜，，有的人一生安逸，无所追求，有人想去探索害怕尝试，不，是害怕失败，你连探索的勇气都没有，迷茫永远将是你最怕的失败，，， ————————————送个还在等风景的你今天的学习，主要讲一点，看了好多文章，要知道特点的来源于哪里，要找到他的源码所在，，，，， Internally, each RDD ...

RDD：五大特性

热门推荐

不花的花和尚的博客

10-06

2万+

1.A list of partitions RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的list；将数据加载为RDD时，一般会遵循数据的本地性（一般一个hdfs里的block会加载为一个partition）。 2.A function for computing each split 一个函数计算每一个分片，RDD的每个partit...

Spark-RDD的五大特性

加油

10-10

483

假设数据是存储在node1上的Datanode，然而Task任务是在Executor上启动的，然而 Exector是在Container（假设时yarn的模式）上启动，然而是由yarn中的NodeManager分配的资源，假设此时的NodeManager是node2上，此时运行就需要将数据传输到node2上，但是RDD来说，就会将Task任务分配到node1上，速度会比较前一种较快，这就是移动任务不移动数据。第一个RDD的分区的个数是由文件的切片的个数所决定的。1、RDD是由一系列的分区组成。

Spark core——RDD的五大特性详解

2401_86341340的博客

10-15

468

2.RDD的五大特性1.RDD有分区2.RDD计算方法会作用到每一个分区之上3.RDD之间是有相互依赖的关系4.KV型RDD可以有分区器（可选）5.RDD分区数据的读取会尽量靠近数据的所有地，（在同一台机器读取效率更高）。

RDD五大特性

毛豆豆的博客

07-09

9119

1）有一个分片列表，就是能被切分，和Hadoop一样，能够切分的数据才能并行计算。　　一组分片（partition），即数据集的基本组成单位，对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。每个分配的存储是由BlockManager实现的，每

Spark Core之RDD的五大特性

CyAurora的博客

08-10

1422

一.RDD的官网定义 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable，partitioned collection of elements that can be operated on in parallel. 翻译：弹性分布式数据集（RDD），Spark中的基本抽象。表示不可变的，分区的可以并行操作的元素集合。解释： RDD是Resi...

RDD的五大特性

qq_39425845的博客

07-19

841

11-13

阅后即焚

01-14

4605

- 1） A list of partitions 一个分区列表，一个rdd有多个分区，后期spark任务计算是以分区为单位，一个分区就对应上一个task线程。通过val rdd1=sc.textFile(文件) 如果这个文件大小的block个数小于等于2，它产生的rdd的分区数就是2 如果这个文件大小的block个数大于2，它产生的rdd的分区数跟文件的block相同 - ...

Spark，在shell中运行RDD程序

2401_87076452的博客

05-12

366

/ 将元组的value按照key来分组，对所有的value执行聚合操作(相加)在根目录下可见out111文件，文件打开后可以看到，word2.txt文件内单词被拆分。在hdfs中/wcinput中创建一个文件：word2.txt在里面写几个单词。// 将单词转换为元组对象，key是单词，value是数字1。// 将单词进行切割，得到一个存储全部单词的RDD。// 收集RDD的数据并打印输出结果。// 将结果储存在out111中。// 读取文件，得到RDD。按住ctrl+D退出。

在spark中配置历史服务器

2401_85987174的博客

05-13

142

此文件一般位于 $SPARK_HOME/conf 目录下。若该文件不存在，可从 spark-defaults.conf.template 复制一份。1. 配置 spark-defaults.conf 文件。

【Spark分析HBase数据】Spark读取并分析HBase数据

最新发布

若兰幽竹

05-14

590

Apache Spark 是一个强大的大数据处理引擎，而 HBase 是一个分布式 NoSQL 数据库，适合存储海量数据。通过结合 Spark 和 HBase，可以实现高效的数据处理和分析。本文以 Spark 2.3.2 读取 HBase 1.4.8 中的 hbase_emp_table 表数据为例，展示了如何实现这一过程。首先，在 IDEA 中创建工程 SparkReadHBaseData，并在 pom.xml 中添加必要的依赖，包括 Spark、HBase 和 Hadoop 的相关库。接着，在 com.

spark-哈希join介绍

认真学代码的shell

05-10

920

哈希算法是一种将任意大小的数据映射到固定大小的值（称为哈希值）的算法。哈希值通常是一个整数，用于快速定位或标识数据。问题解释解决方法Shuffle Join复杂度数据传输和分区复杂度为O(n)，网络开销较大。优化分区策略，减少数据传输量。Hash Join复杂度构建哈希表复杂度为O(n)，查找阶段复杂度为O(1)。使用高效哈希函数，减少碰撞。哈希碰撞不同输入生成相同哈希值，导致数据定位失败或性能下降。链地址法、开放地址法、双哈希法等。哈希分布不均匀某些桶过于拥挤，导致性能下降。

Spark处理过程--案例数据清洗

2401_84985118的博客

05-14

274

以下是 10 条符合上述示例中数据格式（姓名,年龄,性别）的测试数据，包含了一些可能需要清洗掉的无效数据，你可以将其保存为一个文本文件，用于测试上面的数据清洗程序。这里面:“李四” 的年龄为空，“赵六” 和 “吴九” 的年龄不是有效的数字，在执行数据清洗程序时，这些行应该会被过滤掉。//拆分出年龄，判断是不是数字，是就保留记录“45”，“abc”(正则表达式\d+)过滤算子中，函数返回为false，就会被过滤掉，函数返回为true，就会被保留下来。好了，问题描述清楚了，下面我们来看看实现的思路。

spark的RDD五大特性

05-11

Spark的RDD具有以下五个特性： 1. 不可变性（Immutability）：RDD是不可变的，即一旦创建就不能被修改。如果需要对RDD进行修改，只能创建一个新的RDD。 2. 分区性（Partitioning）：RDD是分区的，即数据被分为多个不同的部分进行处理和存储。分区可以使Spark在处理数据时更高效，并且可以在分布式计算中实现数据的并行处理。 3. 可序列化性（Serizalization）：RDD可以被序列化，以便在分布式计算时进行网络传输。 4. 惰性计算（Laziness）：RDD的计算是惰性的，即它们只在需要时进行计算。这种惰性计算可以优化Spark的性能，因为它可以避免计算不必要的数据。 5. 可重用性（Resilience）：RDD具有可重用性，即它们可以在失败后进行恢复。如果一个节点发生故障，Spark可以自动重新计算丢失的数据，并从其他节点中获取缺失的数据。这种可重用性可以提高Spark的可靠性和容错性。