题库大纲:
1、kafka的message包括哪些信息
2、怎么查看kafka的offset
3、hadoop的shuffle过程
4、spark集群运算的模式
5、HDFS读写数据的过程
6、RDD中reduceBykey与groupByKey哪个性能好,为什么
7、spark2.0的了解
8、rdd怎么分区宽依赖和窄依赖
9、sparkstreaming读取kafka数据的两种方式
10、kafka的数据存在内存还是磁盘
11、怎么解决kafka的数据丢失
12、fsimage和edit的区别?
13、列举几个配置文件优化?
14、datanode首次加入cluster的时候,如果log报告不兼容文件版本,那需要namenode执行格式化操作,这样处理的原因是?
15、MapReduce中排序发生在哪几个阶段?这些排序是否可以避免?为什么?
16、hadoop的优化?
17、设计题
18、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序。还是典型的TOPK算法,
19、在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。
20、