spark心得体会

最新推荐文章于 2023-11-21 00:17:14 发布

weixin_33978044

最新推荐文章于 2023-11-21 00:17:14 发布

阅读量3.5k

点赞数

文章标签：大数据 python 数据结构与算法

原文链接：https://my.oschina.net/lovelyBoy/blog/1549745

版权

2019独角兽企业重金招聘Python工程师标准>>>

1. 在spark中，你编写的代码会被spark转义为graph分发给work处理，因此要特别注意你写的代码被翻译之后会变成啥样。并且在翻译为graph时，因为要把任务分发出去，因此其中所有变量都必须是可以序列化的，因此就不能嵌套使用rdd等spark数据结构（如rdd的map方法中引用了外部rdd变量则会导致无法生成graph，程序在启动时就会马上报错），正确的使用方式应该是调用api如：union，join，group等。

2. 所有计算都只会在action那行执行，而且日志中会明确告诉你什么时候执行了代码中哪一行的action，并且日志还会告诉你很多附加信息，因此多仔细看日志有助于编写更合理的spark代码。

3. 一定要记住，执行action的那步就是你要输出结果的那步，因此在编码时要非常确认地分开编写算法和输出结果两部分，不要在编写算法那部分执行action操作。

4. 输出结果时要注意，如果是输出到driver中的变量里，那么需要collect之后再输出，如果是输出到外部系统则可以不collect，由各个work自己去输出更好。

5. 测试中的eventually是会去等待执行结果正确后才往下走，但是其是周期性地去检查，所以要注意它可能读到多个结果中某个正确的结果而导致断言过了，而最终结果却是不正确的。

转载于:https://my.oschina.net/lovelyBoy/blog/1549745

weixin_33978044

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。