Spark面试问题总结

大数据侠客

已于 2024-03-08 16:01:55 修改

阅读量327

点赞数 14

分类专栏： spark相关问题汇总及解决文章标签： spark 面试大数据

于 2024-03-07 11:44:52 首次发布

本文链接：https://blog.csdn.net/weixin_41367158/article/details/136529517

版权

spark相关问题汇总及解决专栏收录该内容

7 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

阿里面试：https://www.jianshu.com/p/11578fd6e272
https://www.jianshu.com/p/c8a271448dcd
大数据开发面试-MMMM：https://www.jianshu.com/p/fec32e92e06c

OGG CDC 读取oracle日志-M

https://blog.csdn.net/dkl12/article/details/80447154
https://www.csdn.net/gather_28/MtTaQg3sMDI5OS1ibG9n.html

Flume-M

Source类型: spooldir avro exec
Channel类型: memory file jdbc kafka
Sink类型：avro hdfs
Flume读取binlog与kafka结合
https://blog.csdn.net/qq_33792843/article/details/84537669

maxwell实时读取mysql数据到hdfs

https://blog.csdn.net/qq_33290422/article/details/80225432
https://blog.csdn.net/qq_30921461/article/details/78320750?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t

了解本专栏

超级会员免费看

大数据侠客

关注

14
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark面试问题总结

在Spark中有两类task，一类是shuffleMapTask，一类是resultTask，第一类task的输出是shuffle所需数据，第二类task的输出是result，stage的划分也以此为依据，shuffle之前的所有变换是一个stage，shuffle之后的操作是另一个stage。但是这里必须要注意的是，在实际的生产环境中，恐怕能够直接用这种策略的场景还是有限的，如果RDD中数据比较多时（比如几十亿），直接用这种持久化级别，会导致JVM的OOM内存溢出异常。如果提交失败了，它将会重试；
复制链接

扫一扫