货拉拉高级大数据平台算法工程师社招一面

2024.9.25

自我介绍

介绍项目

还是从项目中问问题,不过和百度不同的是,侧重大数据相关的原理知识和实践

1.实验 数据来源?

2.Spark eventlog 数据的生成过程?用的是哪些event数据?各部分作用是什么?

3.为什么从逻辑计划提取特征?逻辑阶段计划做了什么?

4.降低Shuffle溢写是怎么做到的?这个指标怎么统计的?

5.实际效果?会不会出现负优化?

6.和业界的方法的区别?

7.spark shuffle怎么产生的?哪些操作会产生?

8.既然提到了join ,你知道spark支持哪些join?

9.说说sortMergeJion的原理,为什么要排序?有什么用?

10.知不知道codegen?codegen有什么好处?

11.知道RSS(remote shuffle service)不?有什么用?

12.Spark 内存模型了解不?为什么Spark要自己做一套内存模型?和java内存模型有什么区别?

13.平台元数据怎么管理的?(我提到了自研的数据源)

14.自研的数据源和orc、parquet有什么区别?

15.parquet 和 orc 和普通的行存数据有什么区别?在分布式中有什么好处?

16.小文件对计算引擎有什么影响?怎么监控?怎么治理?

整体感觉:

面试官人很好,面试中答不上来的或者答的不全面的都会给提醒引导,完全不知道的,他也会给讲,会给你建议从哪些方面入手去学,受益匪浅。

团队想做的和我目前在公司做的很相近,比较对口,希望有后续吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值