pyspark 原理、源码解析与优劣势分析（2） ---- Executor 端进程间通信和序列化

shiter

已于 2022-07-04 00:20:50 修改

阅读量508

点赞数

分类专栏：大数据AI系统解决方案与技术架构 AI赋能行业实战：‌最佳实践与落地案例深度解析！‌ 大数据机器学习实践探索文章标签： scala spark 开发语言

于 2021-05-24 19:23:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyaninglm/article/details/117230276

版权

大数据AI系统解决方案与技术架构同时被 3 个专栏收录

149 篇文章 145 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

AI赋能行业实战：‌最佳实践与落地案例深度解析！‌

149 篇文章 68 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

大数据机器学习实践探索

130 篇文章 124 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

文章大纲

Executor 端进程间通信和序列化
Pandas UDF
参考文献

系列文章：

Executor 端进程间通信和序列化

对于 Spark 内置的算子，在 Python 中调用 RDD、DataFrame 的接口后，从上文可以看出会通过 JVM 去调用到 Scala 的接口，最后执行和直接使用 Scala 并无区别。而 对于需要使用 UDF 的情形，在 Executor 端就需要启动一个 Python worker 子进程，然后执行 UDF 的逻辑。那么 Spark 是怎样判断需要启动子进程的呢？

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。