一、Linux 1、内核 2、进程通信 3、Linux IO 4、linux常用命令 二、java 1、类加载机制 2、jvm内存管理 3、GC 4、jvm调优 5、hashmap原理(红黑树) 6、多线程 7、高并发 三、hadoop 1、hadoop shuffle 2、hive 1、执行流程 2、存储格式 3、压缩算法 4、不同存储格式和压缩算法下的对比 5、hive行式存储和列式存储的区别 6、hive仓库分层 7、hive建模 8、分区/分桶 9、预分区 10、HSQL常用函数 3、hbase 1、架构原理 2、读写原理 3、HRegion分割原理 4、row-key设计 5、使用场景(hbase+es) 6、二级索引 4、yarn 1、架构原理 5、hdfs 1、架构原理 2、读写原理 6、zookeeper 1、架构原理 2、各使用场景 四、spark 1、RDD、Dataframe、dataset 2、spark shuffle 3、spark shuffle和hadoop shuffle的区别 4、spark调优 5、spark和flink的区别 6、spark-streaming如何处理接入的其他数据延时问题 7、spark架构原理