spark学习-54-Spark RDD的clean()方法

最新推荐文章于 2020-06-09 20:44:05 发布

九师兄

最新推荐文章于 2020-06-09 20:44:05 发布

阅读量2.6k

点赞数 2

分类专栏：大数据-spark 文章标签： spark clean RDD

本文为博主九师兄（QQ:541711153 欢迎来探讨技术）原创文章，未经允许博主不允许转载。

本文链接：https://blog.csdn.net/qq_21383435/article/details/78745562

版权

大数据-spark 专栏收录该内容

204 篇文章 480 订阅 ¥49.90 ¥99.00

订阅专栏

Spark中的ClosureCleaner.clean()方法主要用于处理闭包中的引用问题。在分布式环境中，闭包可能包含不可序列化的外部引用，这会导致在worker节点上执行失败。此方法通过递归检查并移除不可序列化及未使用的引用，降低网络IO，提升executor内存效率。该方法广泛应用于SparkContext的RPC方法中。

摘要由CSDN通过智能技术生成

在这里插入图片描述

1.概述

spark里面，大量使用了一个方法, ClosureCleaner.clean()

// 这里调用了SparkContext的clean方法
    // clean方法实际上调用了ClosureCleaner的clean方法，这里一再清除闭包中的不能序列化的变量，防止RDD在网络传输过程中反序列化失败。
    val cleanF = sc.clean(f)

private[spark

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

九师兄

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

Spark02--RDD算子

小梁

07-07

247

文章目录1 RDD 1.1 RDD分类 8.2 转换算子--value型 8.3 RDD算子--双value型两个RDD value型数据做 &n

spark:清空程序运行时的所有（cache）缓存块

善皮之的博客

03-03

6473

spark:清空程序运行时的所有（cache）缓存块为啥要用到缓存在我们编写spark程序的时候，经常会用到action算子，当程序执行到action操作的代码时，开始真正地执行计算，这个时候耗时比较长。然而，当我们程序里面的action算子计算出来的需要被多次使用的时候，为了不在让程序重复再次计算。将这个action算子计算的结果进行persist或者cache（缓存）的操作，可以节省程...

参与评论您还未登录，请先登录后发表或查看评论

spark中ClosureClean中的clean方法

u013761049的专栏

09-07

1470

spark里面，大量使用了一个方法, ClosureCleaner.clean()----闭包资源清楚。为了能将RDD算子正常发送到各个worker节点。那么就需要序列化的类必须是正常的(指该类中的对外部的引用也能找到) 因此对一些没有用的资源进行删除、清理。在这个类的闭包范围内。 // 这里调用了SparkContext的clean方法 // clean方法实际上调用了Clos...

SparkClean

chouduigu5018的博客

12-04

143

package com.ultrapower.main; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import com.ultrapower.model.*; import ...

SparkCore之RDD依赖关系_RDD缓存_RDD CheckPoint

Faded1573606285的博客

11-09

348

一 RDD依赖关系 1 Lineage RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。（1）读取一个HDFS文件并将其中内容映射成一个个元组 scala> va...

Spark Cleaner 清理器

sy532151398的博客

04-30

1399

Spark Cleaner 清理器功能概述Cleaner的创建清理逻辑RDD的清理Shuffle的清理Broadcast的清理Accum的清理Checkpoint的清理参考功能概述这里使用的是一个弱引用（WeakReference）队列，主要用于对RDD，shuffle和广播状态异步清理。当这些对象被gc回收以后，会被放入待清理队列referenceQueue中等待清理，实际的清理动作是在单独...

二、Spark源码-- RDD生成及转换过程

大数据之路

06-23

664

本篇从源码角度介绍下RDD的生成和转换过程 RDD生成过程 RDD生成有几种方式，最常用的是sparkContext.textFile方法 def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped...

SparkRDD - 基础编程

Sarahdsy的博客

06-09

730

SparkRDD - 基础编程 RDD序列化闭包检测从计算的角度，算子以外的代码都是在Driver端执行，算子里面的代码都是在Executor端执行。那么在scala的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭合的效果。如果使用的算子外的数据无法序列化，就意味着无法传值给Executor端执行，就会发生错误。所以，需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。 Scala2.12版本后闭包编译方式发生了改变。源码说明我们执行col

spark：spark-submit 提交任务及参数说明（yarn）

热门推荐

不花的花和尚的博客

02-02

1万+

spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。 1. 例子一个最简单的例子，部署 spark standalone 模式后，提交到本地执行。 ./bin/spark-submit \ --master spark://localhost:7077 \ examples/src/main/python/pi.py 如果...

Spark闭包清理类ClosureCleaner简析

wang_wbq的博客

09-01

2882

spark闭包清理器ClosureCleaner

不说话装高手

09-02

2921

在spark给出的闭包清理器中的代码注释中，关于闭包的例子，给出了一个类作为例子，稍作修改如下。 class SomethingNotSerializable { def someMethod(): Unit = scope("one") { def y = someValue scope("two") { println(y + 1) } } ...

spark的ContextCleaner清理

不说话装高手

04-27

1937

ContextCleaner是Spark中用来清理无用rdd，broadcast等数据的清理器，其主要用到的是java的weakReference弱引用来达成清理无用数据的目的。 ContextCleaner主要由两个线程两个集合组成。 private val referenceBuffer = Collections.newSetFromMap[CleanupTaskWeakRe...

Spark如何实现MapReduce中的setup和cleanup方法

nzq1234的专栏

04-28

1550

在MapReduce中，Mapper和Reducer可以声明一个setup方法，在处理一个split输入之前执行，来进行分配数据库连接等昂贵资源，同时可以用cleanup函数可以释放资源。 public class SetupCleanupMapper extends Mapper { private Connection dbConnection; @Ov

Spark——RDD操作详解

俺叫赵小邪的博客

11-22

9317

一、基本RDD 1、针对各个元素的转化操作最常用的转化操作是map()和filter()。转化操作map()J接收一个函数，把这个函数用于RDD中的每一个元素，将函数的返回结果作为结果RDD中对应元素。而转化操作filter()则接收一个函数，将RDD满足该函数的元素放入新的RDD中返回。map()的返回值类型不需要和输入类型一样。从一个RDD变成另外一个RDD。lazy，懒执行。比如根

spark性能优化----缓存清除

u010990043的博客

01-26

1万+

spark是一款优秀的框架，计算性能相当优异，已经发展成大数据主流计算引擎，在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果，避免重复计算。其中cache是persist的一个特列（cache相当于persist()）。persist拥以下几个级别的缓存：NONE 默认配置（不缓存） DISK_ONLY 数据缓存到磁盘,...

Spark之RDD常用操作

chenxu_0209的博客

01-09

928

test

RDD常用操作

xiaosongwahaha的博客

12-17

1343

RDD常用操作： 1、关键词分组之后展示（将>转化为） JavaPairRDD> productMap = ones.groupByKey(); List<Tuple2<String, String>> reslist = productMap.map(new Function>, Tuple2>() { public Tuple2 call(Tup

基于spark用java写一个word count的程序，打成jar包，使用spark-submit命令以提交到yarn程序运行

最新发布

05-31

好的，以下是基于Spark用Java写一个Word Count的程序，并打成Jar包的步骤： 1. 确保已经安装好了Java和Spark，并且环境变量已经配置好了。 2. 创建一个Java Maven项目，添加以下依赖到pom.xml文件中： ```xml <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.2.0</version> </dependency> </dependencies> ``` 3. 创建一个WordCount类，实现Spark的Word Count算法： ```java import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import scala.Tuple2; import java.util.Arrays; import java.util.List; public class WordCount { public static void main(String[] args) { // 创建SparkConf对象 SparkConf conf = new SparkConf().setAppName("WordCount"); // 创建JavaSparkContext对象 JavaSparkContext sc = new JavaSparkContext(conf); // 读取文件 JavaRDD<String> lines = sc.textFile(args[0]); // 将每行数据切分成单词 JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split(" ")).iterator()); // 将单词转换为键值对 JavaRDD<Tuple2<String, Integer>> pairs = words.map(word -> new Tuple2<>(word, 1)); // 按键进行分组并统计数量 JavaRDD<Tuple2<String, Integer>> counts = pairs.reduceByKey((a, b) -> a + b); // 输出结果 List<Tuple2<String, Integer>> output = counts.collect(); for (Tuple2<String, Integer> tuple : output) { System.out.println(tuple._1() + ": " + tuple._2()); } // 关闭JavaSparkContext对象 sc.stop(); } } ``` 4. 在命令行中进入项目目录，执行以下命令打成Jar包： ```shell mvn clean package ``` 5. 将打包好的Jar包上传到HDFS上，例如： ```shell hadoop fs -mkdir /wordcount hadoop fs -put target/wordcount-1.0-SNAPSHOT.jar /wordcount/wordcount.jar ``` 6. 使用spark-submit命令以提交到yarn程序运行： ```shell spark-submit --class WordCount --master yarn --deploy-mode cluster /wordcount/wordcount.jar /input.txt ``` 其中，/input.txt为需要统计的文件路径。注意：在执行以上步骤前，请确保已经正确配置好了Hadoop和Yarn的环境。