RDD基础-笔记

最新推荐文章于 2024-03-19 22:04:03 发布

彪悍大蓝猫

最新推荐文章于 2024-03-19 22:04:03 发布

阅读量958

点赞数

分类专栏： Java SpringCloud

本文链接：https://blog.csdn.net/u011536031/article/details/102546368

版权

Java 同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

SpringCloud

13 篇文章 0 订阅

订阅专栏

RDD编程

基础Spark中的RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Python、java、Scala中任意类型的对象，甚至可以包含用户自定义的对象。两种方法创建RDD：
1. 读取一个外部数据集
2. 在驱动器程序里分发驱动器程序中的对象集合（比如list和set）。

RDD 支持的操作：
1. 转化操作（transformation）：一个RDD生成一个新的RDD。
2. 行动操作（action）：会对RDD计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部。
3. 虽可以在任何时候定义新的RDD，但Spark只会惰性计算这些RDD。他们只有第一次在一个行动操作中用到时，才会真正计算。
4. 默认情况下，Spark的RDD会在你每次对他们进行行动操作时重新计算。（在任何时候都能进行重算是我们为什么把RDD描述为“弹性的原因”）如果想在多个行动操作中重用同一个RDD，可以使用RDD.persist()让Spark把这个RDD缓存下来。

每个Spark程序或shell会话都按如下方式工作。
1. 从外部数据创建出输入RDD。
2. 使用诸如filter()这样的转化操作对RDD进行转化，以定义新的RDD。
3. 告诉Spark对需要被重用的中间结果RDD执行persist()操作。
4. 使用行动操作（例如count()和first()等）来触发一次并行计算，Spark会对计算进行优化后再执行。

errorsRDD = inputRDD.filter(lambad x:“error” in x)
warningsRDD = inputRDD.filter(lamdba x: “warning” in x)
badLinesRDD = errorsRDD.union(warningRDD)

cache()与使用默认存储级别调用persist()是一样的。
count()返回计数结果
take() 收集RDD中的一些元素

欢迎关注我的公号：彪悍大蓝猫，持续分享SpringCloud干货~

在这里插入图片描述

彪悍大蓝猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
RDD基础-笔记

RDD编程基础Spark中的RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Python、java、Scala中任意类型的对象，甚至可以包含用户自定义的对象。两种方法创建RDD：读取一个外部数据集在驱动器程序里分发驱动器程序中的对象集合（比如list和set）。RDD 支持的操作：转化操作（transform...
复制链接

扫一扫