rdd算子中能使用rdd的引用吗？

最新推荐文章于 2021-06-14 18:48:07 发布

tanglizhe1105

最新推荐文章于 2021-06-14 18:48:07 发布

阅读量3.5k

点赞数 2

分类专栏： Spark 文章标签：闭包 spark rdd

本文链接：https://blog.csdn.net/tanglizhe1105/article/details/50945137

版权

Spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

rdd算子中调用的客户函数坚决不能出现任何形式的rdd引用，否则会报很严重的错误：
java.lang.ClassCastException: org.apache.spark.MapOutputTrackerWorker cannot be cast to org.apache.spark.MapOutputTrackerMaster

按spark的说法是trasaction中不能嵌套，这是因为客户函数将以闭包的形式发送至各个worker。若客户函数使用了rdd的引用（特别是当前rdd的引用），spark将会把当前rdd对象闭包给worker.然而，对rdd对象的执行只能由driver进行，worker并不能执行，所以会导致错误。
如：

val r1 = r0.zipWithUniqueId()
val r2 = r1.filter(_._2 / r1.partitions.length)

第二句filter算子的客户函数引用了r1，即使只是使用一个Int型的分区数目，都会导致错误。
当前情况在spark1.4是可以通过的，但在spark1.6就会出错，spark1.6在这个原则问题上处理更加严肃！

处理办法，去掉rdd引用，使用本地数据结构代替：

val r1 = r0.zipWithUniqueId()
val partitionSize = r1.partitions.length
val r2 = r1.filter(_._2 / partitionSize )

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tanglizhe1105

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

86-Spark2.2源码：RDD中WithScope是什么？

九师兄

07-04

3213

在Spark源代码里，每个算子总是有withScope ，而从源代码里，我们看到withScope的实现是RDDOperationScope.withScope[U](sc)(body) /** * Execute a block of code in a scope such that all new RDDs created in this body will * be p...

图文详解 Spark 总体架构 [禅与计算机程序设计艺术]

程序员光剑

12-20

9561

前言本文对Spark总体架构进行描述，本文读者需要一定的Spark的基础知识，至少了解Spark的RDD和DAG。 Spark 架构图术语说明： Driver Driver的主要功能，总结如下: 运行应用程序的main函数创建spark的上下文划分RDD并生成有向无环图(DAGScheduler) 与spark中的其他组进行协调，协调资源等等(SchedulerBackend)...

参与评论您还未登录，请先登录后发表或查看评论

Apache Spark实战教程(二)：Spark 中需要两个RDD进行嵌套操作

UncleTian的博客

01-17

1717

一，前言因为在Spark中进行RDD的嵌套操作,所以在操作的时候报了一个错误 Caused by: org.apache.spark.SparkException: This RDD lacks a SparkContext. It could happen in the following cases: RDD transformations and actions are NOT invo...

大数据学习-Spark算子（三）之RDD的其他操作

WeixinX_的博客

09-10

259

Spark算子（三）之RDD的其他操作大数据学习-Spark算子（一）之基本RDD操作大数据学习-Spark算子（二）之Pair RDD操作文章目录Spark算子（三）之RDD的其他操作5、RDD的其他操作1）`glom()`：2）`getNumPartitions()`：3）`coalesce(numPartitions,shuffle=False)`：4）`repartition(numPartitions)`：5）`cache()`：6）`persist()`：7）`pipe(command,[

Spark 中如何两个RDD进行嵌套操作——广播+累加器

iwtbs

04-30

1514

文章目录累加器广播变量累加器 file = sc.textFile(inputFile) # 创建Accumulator[Int]并初始化为0 blankLines = sc.accumulator(0) def extractCallSigns(line): global blankLines # 访问全局变量 if (line == ""): blankLines += 1 ...

Spark RDD 核心总结

weixin_30952535的博客

03-22

摘要：　　1.RDD的五大属性　　　　1.1 partitions(分区) 　　　　1.2 partitioner(分区方法) 　　　　1.3 dependencies(依赖关系) 　　　　1.4 compute(获取分区迭代列表) 　　　　1.5 preferedLocations(优先分配节点列表) 　　2.RDD实现类举例　　　　2.1 MapPartitionsRD...

Spark的RDD详解和自定义RDD（源码）

spark的自由牧场的博客

02-06

4473

RDD概论具体概念百度（以下总结）：Spark中 RDD本身并不是数据，只是数据信息的集合。里面包含数据的分区信息；和获取数据的方式；Spark有很多类型的RDD；getPartitions只运行一次；compute每次有action算子的时候都会运行，一个partition一次。NewHadoopRDD根据id（rdd的id）生成一个Jobid 获取分区的方式，是根据inputFormatC

Spark（3）架构原理、运行流程和RDD介绍

weixin_43230682的博客

08-03

1788

目录一、Spark简介 1、内置模块介绍 2、Spark特点二、Spark基本架构和运行流程 1、基本架构 2、运行流程三、RDD概述 1、什么是RDD 2、RDD的属性 3、RDD的特点 4、RDD依赖关系 4.1 Lineage 4.2 窄依赖 4.3 宽依赖 4.4 DAG 4.5 任务划分（面试重点） 5、 RDD缓存 6、 RDD CheckPoint 一、Spark简介 1、内置模块介绍 S...

RDD编程初级实践

weixin_41577884的博客

06-14

6881

RDD编程初级实践

Spark论文思想之-基于RDD构建的模型（Shark的来龙去脉）

初心江湖路的博客

06-03

416

3.1 介绍首先RDD提供以下功能：跨集群的不可变存储（在Spark中，记录是指Java Object）使用键对数据进行分区控制考虑分区的粗粒度运算符由于是内存计算，所以低延迟 3.2 在RDD上实现其它模型的技术在专业引擎里，不只是数据运算符，而且存储格式、甚至访问方法都被优化了。如SQL引擎如Shark是以面向列的格式处理数据，同时一个图计算引擎如GraphX在数据被创建索引的...

SparkRDD的一些使用经验

mtj66的博客，交流WX:SpringBreeze1104

01-24

946

要减少shuffle的开销，主要有两个思路：减少shuffle次数，尽量不改变key，把数据处理在local完成；减少shuffle的数据规模。先去重，再合并比如有A、B这样两个规模比较大的RDD，如果各自内部有大量重复，那么二者一合并，再去重： A.union(B).distinct() 这样的操作固然正确，但是如果可以先各自去重，再合并，再去重，可以大幅度减小s

sparkstreaming中foreachRDD的三层嵌套使用原因

weixin_44803002的博客

11-22

342

https://www.cnblogs.com/oush/p/11489126.html 这位大佬描述的很详细！

Hbase-Trying to load more than 32 hfiles to one family of one region

qq1010234991的博客

08-24

1173

BulkLoad方式优化背景问题分析解决方案方式一：spark DataFrame写入Hive临时表前进行coalesce(30) 方式二：参考链接 BulkLoad方式优化背景项目中使用到Hbase BulkLoad方式插入数据，当数据量较大时或小文件过多时，任务失败：报错：Exception in thread "main" jav...

Trafodion Troubleshooting - Trying to load more than 32 hfiles to one family of one region

数据源的港湾

01-13

1008

现象在Trafodion中往一个单分区表中Load数据的时候，或者在一个大的分区表上创建单分区索引的时候，会遇到以下错误， ERROR[8448] Unable to access Hbase interface. Call to ExpHbaseInterface:doBulkLoad returned error HBASE_DOBULK_LOAD_ERROR(-715). Cause: j...

Hbase的Filter详解使用