1.自我介绍 2.spark消费kafka怎么保证精确一致性?不重复消费,不多消费或少消费 3.kafka消费canal怎么保证数据准备?不重复消费,不多消费或少消费 4.hive的数据存储格式有哪些? 5.hive常用的开窗函数 6.怎么保证读取kafka写入数据的顺序一致性,是分区的还是全局的? 7.MapReduce的读写流程 8.MapReduce写入过程中如果一台DataNode突然挂了怎么办? 9.Hbase的读写流程 10.spark宽依赖和窄依赖怎么划分的? 11.spark常用的优化有些? 12.spark开发过程中遇到哪些问题?怎么解决的? 13.spark怎么提交kafka偏移量? 14.java的多线程有几种方式? 15.java的Jvm了解多少? 16.Java的HashMap和HashTable的区别? 17.你有什么想问的吗?