Spark中闭包的理解

最新推荐文章于 2023-06-08 09:04:27 发布

聒噪鱼

最新推荐文章于 2023-06-08 09:04:27 发布

阅读量630

点赞数

分类专栏： Spark 文章标签： Spark 闭包

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Spider_Lily/article/details/79071616

版权

Spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

概念的理解：函数可以访问函数外面的变量，但是函数内对变量的修改，在函数外是不可见的。
spark
RDD相关操作都需要传入自定义闭包函数(closure)，如果这个函数需要访问外部变量，那么需要遵循一定得规则，否则会抛出运行时异常。闭包函数传入到节点时，需要经过下面的步骤：

驱动程序，通过反射，运行时找到闭包访问的所有变量，并封成一个对象，然后序列化该对象；
将序列化后的对象通过网络传输到worker节点；
worker节点反序列化闭包对象；
worker节点执行闭包函数。

注意：外部变量在闭包内的修改不会被反馈到驱动程序。
简而言之，就是通过网络，传递函数到worker节点，然后执行。所以被传递的变量必须可以序列化，否则传递失败。本地执行时，仍然会执行上面四步。

广播机制也可以做到这一点，但是频繁的使用广播会使代码不够简洁，而且广播设计的初衷是将较大数据缓存到节点上，避免多次数据传输，提高计算效率，而不是用于进行外部变量访问。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark中闭包的理解

概念的理解：函数可以访问函数外面的变量，但是函数内对变量的修改，在函数外是不可见的。 RDD相关操作都需要传入自定义闭包函数(closure)，如果这个函数需要访问外部变量，那么需要遵循一定得规则，否则会抛出运行时异常。闭包函数传入到节点时，需要经过下面的步骤：驱动程序，通过反射，运行时找到闭包访问的所有变量，并封成一个对象，然后序列化该对象；将序列化后的对象通过网络传输到worke...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。