2024.9.25
自我介绍
介绍项目
还是从项目中问问题,不过和百度不同的是,侧重大数据相关的原理知识和实践
1.实验 数据来源?
2.Spark eventlog 数据的生成过程?用的是哪些event数据?各部分作用是什么?
3.为什么从逻辑计划提取特征?逻辑阶段计划做了什么?
4.降低Shuffle溢写是怎么做到的?这个指标怎么统计的?
5.实际效果?会不会出现负优化?
6.和业界的方法的区别?
7.spark shuffle怎么产生的?哪些操作会产生?
8.既然提到了join ,你知道spark支持哪些join?
9.说说sortMergeJion的原理,为什么要排序?有什么用?
10.知不知道codegen?codegen有什么好处?
11.知道RSS(remote shuffle service)不?有什么用?
12.Spark 内存模型了解不?为什么Spark要自己做一套内存模型?和java内存模型有什么区别?
13.平台元数据怎么管理的?(我提到了自研的数据源)
14.自研的数据源和orc、parquet有什么区别?
15.parquet 和 orc 和普通的行存数据有什么区别?在分布式中有什么好处?
16.小文件对计算引擎有什么影响?怎么监控?怎么治理?
整体感觉:
面试官人很好,面试中答不上来的或者答的不全面的都会给提醒引导,完全不知道的,他也会给讲,会给你建议从哪些方面入手去学,受益匪浅。
团队想做的和我目前在公司做的很相近,比较对口,希望有后续吧!