阿里面试:https://www.jianshu.com/p/11578fd6e272
https://www.jianshu.com/p/c8a271448dcd
大数据开发面试-MMMM:https://www.jianshu.com/p/fec32e92e06c
OGG CDC 读取oracle日志-M
https://blog.csdn.net/dkl12/article/details/80447154
https://www.csdn.net/gather_28/MtTaQg3sMDI5OS1ibG9n.html
Flume-M
Source类型: spooldir avro exec
Channel类型: memory file jdbc kafka
Sink类型:avro hdfs
Flume读取binlog与kafka结合
https://blog.csdn.net/qq_33792843/article/details/84537669
maxwell实时读取mysql数据到hdfs
https://blog.csdn.net/qq_33290422/article/details/80225432
https://blog.csdn.net/qq_30921461/article/de
本文详细汇总了Spark面试中的核心问题,涵盖OGG CDC、Flume、Maxwell的使用,Oozie与Azkaban的对比,Yarn调度器的区别,以及Spark Streaming窗口函数、广播变量、状态管理等关键概念。同时,文章还讨论了Scala与Java语言差异,以及Spark与Flink的比较。此外,还涉及了HadoopRDD和Spark Streaming的数据处理,以及在实际项目中如中燕项目和瑞安集团电商可视化平台遇到的问题和解决方案。
订阅专栏 解锁全文
1133

被折叠的 条评论
为什么被折叠?



