方案设计
- 如何结合业务要求对流数据处理方案进行选型(mq选型,流数据处理引擎选型,数据库选型。。)
- 数据丢失的可能性分析
- 怎么实现数据精准一致性exactly-once
- lamda架构的实现
mq
- kafka偏移量两种提交方式,三种auto.offset.reset方式的含义和演示(包含代码)
- kafka offset的三种存储方式(hbase,zookeeper,kafka自身)
- 如何删除kafka话题数据
- mq参数如何调优
- 生产mq参数如何配置
- 如何压测kafka集群性能
流数据引擎
- kafka与streaming数据对接
- 流处理Spark Streaming如何动态控制消费速率
- 流处理Spark Streaming如何调优batch interval参数
- 流处理Spark Streaming如何调优gc参数
- 流处理Spark Streaming如何实现输出不重复
- 如何优雅的关闭streaming任务
- 流处理内存持续占用过高问题怎么排查
- 如何保证实时任务7x24小时运行的稳定性
- 流处理Spark Streaming参数如何调优提供处理性能
- 流处理Spark Streaming如何进行task级别的监控
- 如何同时启动大量实时任务
存储
- streaming数据存储在数据库mysql、hbase、redis
linux
- 如何查看Linux系统的缓存由那些大文件构成
- Linux系统的“缓存数据”为什么删不掉
运维监控
- kafka 监控工具的使用
- 启停(zookeeper/kafka/kafka manager/spark/)
- 如何对实时任务的延时情况进行监控