“ 最近公司来了几个新同事,好奇问了下面试问题,记录下。”
01
1)技术部分
(1)Kafka原理,数据怎么平分到消费者
(2)FlumeHDFS Sink小文件处理
(3)Flink与SparkStreaming的差异,具体效果
(4)Spark背压机制具体原理实现
(5)Spark执行内存如何分配,执行任务时给多大内存
(6)SparkSQL做了哪些功能
(7)讲一下Flink
(8)状态编程有哪些应用
(9)端到端exactly-once如何保证
(10)Flinkcheckpoint机制
(11)Yarn调度策略
2)项目部分
(1)离线指标、数据量、用户量
(2)介绍一下实时项目,哪些指标,怎么算的
(3)SparkStreaming遇到什么问题,如何解决
(4)SparkStreaming实现什么指标,怎么算的
(5)实时当天日活怎么累加
(6)集群规模
(7)一天的指标会用SparkSQL吗
(8)Spark手动设置偏移量,如果数据处理完后,offset提交失败,造成重复计算怎么办
(9)项目中ES做了哪些工作、ES实现原理、ES倒排索引怎么生成
(10)任务调度
(11)讲一下HBase、项目中哪些地方用了HBase、HBase写入流程、不同列族之间文件怎么划分
(12)Kerberos安全认证过程
02
(1)数仓建模有没有详细的文档说明?
(2)还有HBase的rowkey在生产环境下怎么设计?HBase三个原则:唯一性、长度原则、散列原则
(3)HBase表做预分区,评估半年到一年的数据量
(4)一年之内不能自动切分 (10g数据)
(5)求出分区数量
(6)最后再设计自己的分区键值 01| 02| 03|
(7)rowkey前缀(分区号)01_ 02_ 03_
(8)后面拼接常用字段或者时间戳
(9)在一个分区内先查询什么字段,就要把那个字段拼接到前面 分区号_要查询的字段_时间戳(保证唯一性)
03
(1)SparkStreaming消费方式及区别,Spark读取HDFS的数据流程
(2)Kafka高性能
(3)Hive调优,数据倾斜
(4)Zookeeper怎么避免脑裂,什么是脑裂。
(5)Redis的基本类型,并介绍一下应用场景
(6)最后会问一些Linux常用命令,比如怎么查进程,查IO运行内存等
希望大家可以关注下公众号,会定期分享自己从业经历、技术积累及踩坑经验,支持一下,鞠躬感谢~
关注公众号回复:“资料全集”